今天又碰到了難纏的python編碼問題,首先主要還是linux操作系統中的編碼問題。
無論怎麼樣,我都沒辦法在linux的vim中利用中文輸入法打出中文?
vim中的set encoding,set fileencoding, set fileencodings 各種設置了還是無法打出中文,還是出 現亂碼?
這時就要考慮linux系統編碼的問題,利用locale命令查看一下linux系統的編碼。LC_ALL的設置會覆蓋所 偶LC_*的設定,直接忽略LANG。如果未設置LC_ALL,則LC_*按照LANG的值來設定。
注意LC_ALL設置中文編碼後linux系統才可能支持中文~,如果這個地方忽略。vim中怎樣設置都無效。
vim中三個命令的意義
enc(encoding):vim的內部編碼
fenc(fileencoding):vim解析出來的當前文件編碼
fencs(fileencodings):vim解析文件時猜測的編碼格式順序列表
這些其實不需要測試,用於查看編碼比較重要。
抓取網頁注意檢查編碼
抓取網頁注意編碼的檢查,百度圖片的編碼采用utf8,而搜狗圖片的編碼采用gb2312。其中url參數也有講 究,
百度的url參數中的中文采用utf8編碼。搜狗圖片的url參數需要轉碼。這些細節在抓取網頁中都需要考慮 到。
http://pic.sogou.com/pics?query=%B6%AB%DD%B8%BB%C6%BD%AD%CC%AB%D7%D3%BE%C6%B5%EA%C3%C0%C5% AE
http://image.baidu.com/i?ie=utf-8&word=東莞黃江太子酒店美女