locale 是國際化與本土化過程中的一個非常重要的概念,個人認為,對於中文用戶來說,通常會涉及到的國際化或者本土化,大致包含三個方面:看中文、寫中文、與Window中文系統的兼容和通信。從實際經驗上看來,locale的設定與看中文關系不大,但是與寫中文及Window分區的掛載方式有很密切的關系。本人認為就像一個純英文的Windows能夠浏覽中文,日文或者意大利文網頁一樣,你不需要設定locale就可以看中文。那麼,為什麼要設定locale呢?什麼時候會用到locale呢?
正如前面我所講的,設定 locale 與你能否浏覽中文的網頁沒有直接的關系,即便你把locale設置成 en_US.ISO-8859-1 這樣一個標准的英文 locale 你照樣可以浏覽中文的網頁,只要你的系統裡面有相應的字符集(這個都不一定需要)和合適的字體(如simsun),浏覽器就可以把網頁翻譯成中文給你看。具體的過程是網絡把網頁傳送到你的機器上之後,浏覽器會判斷相應的編碼的字符集,根據網頁采用的字符集,去字體庫裡面找合適的字體,然後由文字渲染工具把相應的文字在屏幕上顯示出來。
那有時候網頁顯示亂碼或者都是方框是怎麼回事呢?個人認為,顯示亂碼是因為設定的字符集不對(或者沒有相應的字符集),例如網頁是用UTF-8 編碼的,你非要用GB2312去看,而系統根據GB2312去找字體,然後在屏幕上顯示,當然是一堆的亂碼。
其實你有沒有想過這麼一個問題,為什麼 gentoo 官方論壇上中文論壇的網頁是用 UTF-8 編碼的(雖然大家一直強烈建議用 GB2312 編碼),但是新浪網就是用 GB2312 編碼的呢?而 Xorg 的官方網頁竟然是 ISO-8859-15 編碼的,我沒有設定這個 locale 怎麼一樣的能浏覽呢?這個問題就像是你有所有的密碼本,不論某個網站是用什麼字符集編碼的,你都可以用你手裡的密碼本把他們翻譯過來。也就是說,只要你的系統裡有相應的字符集,你就可以查看對應的字符編碼文件,這個和 locale 的設定無關。
既然我能夠浏覽中文網頁,那為什麼我還要設定locale呢?
最根本的問題是:Linux不知道改用哪種字符集來解讀文件編碼。
當你決定要寫什麼東西的時候,首先要決定的一件事情是用那種語言,對於計算機來說就是你要是用哪一種字符集,你就必須告訴你的 Linux 系統,你想用哪一本密碼本去寫你想要寫的東西。知道為什麼需要用 GB2312 字符集去浏覽新浪了吧,因為新浪的網頁是用 GB2312 寫的,在新浪網頁的開頭就指定了 GB2312 字符集,所以浏覽器就會用 GB2312 來渲染網頁。
Locale 是根據計算機用戶所使用的語言,所在國家或者地區,以及當地的文化傳統所定義的一個軟件運行時的語言環境。
這個用戶環境可以按照所涉及到的文化傳統的各個方面分成幾個大類,通常包括用戶所使用的語言符號及其分類(LC_CTYPE),數字 (LC_NUMERIC),比較和排序習慣(LC_COLLATE),時間顯示格式(LC_TIME),貨幣單位(LC_MONETARY),信息主要是提示信息,錯誤信息, 狀態信息, 標題, 標簽, 按鈕和菜單等(LC_MESSAGES),姓名書寫方式(LC_NAME),地址書寫方式(LC_ADDRESS),電話號碼書寫方式 (LC_TELEPHONE),度量衡表達方式(LC_MEASUREMENT),默認紙張尺寸大小(LC_PAPER)和locale對自身包含信息的概述(LC_IDENTIFICATION)。
所以說,locale就是某一個地域內的人們的語言習慣和文化傳統和生活習慣。一個地區的locale就是根據這幾大類的習慣定義的,這些locale定義文件放在 /usr/share/i18n/locales 目錄下面,例如 en_US, zh_CN and
都是 locale 的定義文件,這些文件都是用文本格式書寫的,你可以用寫字板打開,看看裡邊的內容,當然出了有限的注釋以外,大部分東西可能你都看不懂,因為是用的 Unicode 的字符索引方式。
字符集就是字符,尤其是非英語字符在系統內的編碼方式,也就是通常所說的內碼,所有的字符集都放在/usr/share/i18n/charmaps,所有的字符集也都是用Unicode編號索引的。Unicode用統一的編號來索引目前已知的全部的符號。而字符集則是這些符號的編碼方式,或者說是在網絡傳輸,計算機內部通信的時候,對於不同字符的表達方式,Unicode是一個靜態的概念,字符集是一個動態的概念,是每一個字符傳遞或傳輸的具體形式。就像Unicode編號U59D0是代表姐姐的“姐”字,但是具體的這個字是用兩個字節表示,三個字節,還是四個字節表示,是字符集的問題。例如:UTF-8字符集就是目前流行的對字符的編碼方式,UTF-8用一個字節表示常用的拉丁字母,用兩個字節表示常用的符號,包括常用的中文字符,用三個表示不常用的字符,用四個字節表示其他的古靈精怪的字符。而GB2312字符集就是用兩個字節表示所有的字符。需要提到一點的是Unicode除了用編號索引全部字符以外,本身是用四個字節存儲全部字符,這一點在談到掛載windows分區的時候是非常重要的一個概念。所以說你也可以把Unicode看作是一種字符集(我不知道它和UTF-32的關系,反正UTF-32就是用四個字節表示所有的字符的),但是這樣表述符號是非常浪費資源的,因為在計算機世界絕大部分時候用到的是一個字節就可以搞定的26個字母而已。所以才會有UTF-8,UTF-16等等,要不然大同世界多好,省了這許多麻煩。
Locale 是軟件在運行時的語言環境, 它包括語言(Language), 地域 (Territory) 和字符集(Codeset)。一個locale的書寫格式為: 語言[_地域[.字符集]]. 所以說呢,locale總是和一定的字符集相聯系的。下面舉幾個例子:
zh_CN.GB2312=中文_中華人民共和國+國標2312字符集。
zh_CN.GB18030=中文_中華人民共和國+國標18030字符集。
zh_TW.BIG5=中文_台灣.大五碼字符集
en_GB.ISO-8859-1=英文_大不列顛.ISO-8859-1字符集
de_DE.UTF-8\@euro=德語_德國.UTF-8字符集\@按照歐洲習慣加以修正
注意不是de_DE\@euro.UTF-8,所以完全的locale表達方式是 [語言[_地域][.字符集] [\@修正值]
生成的 locale 放在/usr/lib/locale/目錄中,並且每個 locale 都對應一個文件夾,也就是說創建了 de_DE\@euro.UTF-8 locale之後,就生成/usr/lib/locale/de_DE\@euro.UTF-8/目錄,裡面是具體的每個 locale 的內容。
為了讓 locale 生效,必須告訴 Linux 系統使用哪個 locale。這就需要對 locale 的內部機制有一點點的了解。在前面我已經提到過,locale 把按照所涉及到的文化傳統的各個方面分成12個大類,這12個大類分別是:
其中,與中文輸入關系最密切的就是 LC_CTYPE, LC_CTYPE 規定了系統內有效的字符以及這些字符的分類,諸如什麼是大寫字母,小寫字母,大小寫轉換,標點符號、可打印字符和其他的字符屬性等方面。而locale定義zh_CN中最最重要的一項就是定義了漢字(Class “hanzi”)這一個大類,當然也是用Unicode描述的,這就讓中文字符在Linux系統中成為合法的有效字符,而且不論它們是用什麼字符集編碼的。
另外非常重要的一點就是這些分類是彼此獨立的,也就是說LC_CTYPE,LC_COLLATE和 LC_MESSAGES等等分類彼此之間是獨立的,可以根據用戶的需要設定成不同的值。這一點對很多用戶是有利的,甚至是必須的。例如,我就需要一個能夠輸入中文的英文環境,所以我可以把LC_CTYPE設定成zh_CN.GB18030,而其他所有的項都是en_US.UTF-8。
設定locale就是設定12大類的locale分類屬性,即 12個LC_*。除了這12個變量可以設定以外,為了簡便起見,還有兩個變量:LC_ALL和LANG。它們之間有一個優先級的關系:
LC_ALL > LC_* > LANG
可以這麼說,LC_ALL 是最上級設定或者強制設定,而 LANG 是默認設定值。
locale 中每項具體值的設定可以使用命令export
例如:export LC_CTYPE="zh_CN.UTF-8"
也可以直接修改文件:
debian系列:/etc/default/locale
RedHat系列:/etc/sysconfig/i18n
1、查看當前系統語言環境
locale
2、可用區域的名稱
locale -a
3、可用字符映射的名稱
locale -m
4、安裝locale
sudo locale-gen en_US.UTF-8
即可安裝 en_US.UTF-8 locale文件,並在 /var/lib/locales/supported.d 下產生相應的locale文件
也可以使用 /usr/share/locales 目錄下的 install-language-pack 和 remove-language-pack 工具來安裝和移除語言包。
sudo ./install-language-pack en_US
NOTE:
LANG 和 LANGUAGE 的區別:
更多Ubuntu相關信息見Ubuntu 專題頁面 http://www.linuxidc.com/topicnews.aspx?tid=2LANG - Specifies the default locale for all unset locale variables
LANGUAGE - Most programs use this for the language of its interface