您现在的位置： Linux教程網 >> UnixLinux > >> Unix知識 >> 關於Unix

SMS中用Unicode編碼發送中文的辦法

SMS是由Esti 所制定的一個規范（GSM 03.40 和 GSM 03.38）。有兩種方式來發送和接收SMS消息：文本模式或者PDU（protocol description unit）模式。文本模式只能發送普通的ASCII字符，而要發送圖片、鈴聲、其它編碼的字符（如中文）就必須采用PDU模式。 PDU模
　　SMS是由Esti 所制定的一個規范（GSM 03.40 和 GSM 03.38）。有兩種方式來發送和接收SMS消息：文本模式或者PDU（protocol description unit）模式。文本模式只能發送普通的ASCII字符，而要發送圖片、鈴聲、其它編碼的字符（如中文）就必須采用PDU模式。
　　
　　PDU模式中，可以采用三種編碼方式來編碼要發送的內容，分別是 7-bit編碼、8-bit編碼、16-bit編碼。7-bit編碼用於發送普通的ASCII字符；8-bit編碼通常用於發送數據消息，比如圖片和鈴聲等；而16-bit編碼用於發送Unicode字符。在這三種編碼方式下，可以發送的最大字符數分別是 160、 140、 70。
　　
　　若要發送中文（或日文等），必須采用PDU模式的Unicode編碼方式。
　　
　　我最近參與了一個在linux下收發短信的項目。其中，需要實現中文的發送和接收。由於原來沒有中文編碼、Unicode編碼的經驗，所以查了一些資料，也在一些論壇上提了一些問題。現在把它整理出來，希望對以後再做類似項目的朋友有個幫助。我寫的比較簡單，關於PDU的規范，可以看這裡：http://www.ascend-tech.com.cn/sustain/SMS_PDU-mode.pdf ，或者去wavecom的網站上找找看。
　　
　　1、 GB2312 編碼到Unicode 編碼的轉換
　　在 Redhat 7.3系統上，默認是用GB2312編碼保存中文字符的（對於中英文混合的文本也是如此）。所以首先需要把 GB2312 編碼的字符串轉換到 Unicode編碼的字符串。GB2312編碼是一種多字節編碼方式，對於中文，用2個字節表示，對於英文，用1個字節表示，就是英文的ascii碼。（注：我沒有仔細看過GB2312編碼的規范，以上理解是實際開發中得出來的，不能保證正確性）。Unicode編碼是雙字節編碼方式，對所有字符，都采用2個字節編碼。在linux平台上，GB2312編碼到Unicode編碼的轉換，可以有三種實現方式（或者更多）：
　　1）、用 mbstowcs () 函數。就是多字節編碼到寬字符的轉換。我試過它，可以正確的轉換，但是這個函數可能不是很可靠。
　　
　　2）、用 GB2312 à Unicode 的轉換表，手動查表轉換。網上有這樣的轉換表，你需要對每一個GB2312字符，根據它是中文字符還是英文字符，分別轉換。
　　
　　3）、用 iconv () 函數。這可能是linux上的標准的方法，不僅可以轉換GB2312到Unicode，還可以在任意的兩種編碼之間轉換（前提是linux系統要支持這些編碼）。
　　首先要用 iconv_open()，打開一個轉換句柄，指定兩種轉換前的編碼和轉換後的編碼。
　　然後用 icnov() 作轉換。最後用 iconv_close()關閉句柄，釋放資源。
　　
　　#include <iconv.h>
　　
　　#define BUFLEN 200
　　char inbuf[BUFLEN];
　　char outbuf[BUFLEN];
　　char* pin = inbuf;
　　char* pout = outbuf;
　　
　　…打開文件，讀入GB2312數據到inbuf，數據長度為 len
　　
　　int inleft = len;
　　int outleft = BUFLEN;
　　
　　iconv_t cd;
　　if((cd = iconv_open(“gb2312”, “unicode”)) == (iconv_t)-1)
　　return –1;
　　if(iconv(cd, &pin, &inleft, &pout, &outleft) == (size_t)-1)
　　return –1;
　　iconv_close(cd);
　　
　　使用 iconv () 時，需要注意參數的使用，inleft 是輸入緩沖區數據數據長度，outleft是輸出緩沖區大小。（需要保證輸出緩沖區足夠大）。
　　轉換以後，outleft 是outbuf中空閒空間的大小，所以 BUFLEN-outleft 才是真正的Unicode數據長度。
　　注意：不論是GB2312編碼，還是Unicode編碼，在內存中都是一些字節序列，所以我們可以統一用類型為 char（或者unsigned char）的字符數組來保存。所以，BUFLEN-outleft 是字符（char）個數，而不是Unicode字符個數。
　　
　　2、 Unicode 編碼到 16-bit 編碼的轉換
　　在得到 Unicode編碼以後，還需要轉換到 PDU 的16-bit 編碼，才可以正確的發送。在這個轉換過程中，需要注意兩點：
　　1）、Unicode 編碼最開始的 0xFEFF標志要被去除，在0xFEFF之後的內容，才是真正的Unicode字符。（至於為什麼有這個0xfeff標志，知道的朋友告訴我一聲，呵呵）。
　　
　　2）、Unicode 是雙字節字符，由於我的系統是小端字節序（little-endian），也就是說，在存儲的時候，是先低位，後高位，例如“中”的Unicode編碼是 0x4E2D，存儲的時候是 2D4E，在轉換到 16-bit編碼的時候，要注意這個順序的不同。當然，如果你的系統是大端字節序（big-endian），那麼就不用這樣做了。
　　
　　OK，關於如何將 0x4E2D 的Unicode編碼轉換到 “4E2D” 的16-bit編碼，我就不多寫了。
　　
　　3、正確計算16-bit 編碼的消息體長度
　　4、正確設置 First-Octet 、TP-MR、TP-PID、TP-DCS、TP-VP
　　在PDU格式中，First-Octet 、TP-MR、TP-PID、TP-DCS、TP-VP的設置正確與否，對能否發送 Unicode 至關重要。根據協議規范以及我的調試結果，以上幾個標志的正確設置分別為（都是16進制）：
　　First-Octet ： 11
　　TP-MR ： 00
　　TP-PID ： 00
　　TP-DCS ： 08 （編碼方式，16-bit）
　　TP-VP ： A7

上一篇文章： Linux嵌入式---AVR單片機的GCC編程
下一篇文章： Linux中給Python2.2加DCOracle模塊

關於Unix

SecureCRT中文編碼亂碼解決

Linux Bash下通過Mailx發送中文內容顯示為附件的解決

RedHat Linux 6.0 中文編碼問題

Linux開發中GSM 中文短信 SMS PDU編碼原理及實現

用KDE時要注意中文編碼

Java Web中的中文編碼

VIM查看中文編碼文件顯示為亂碼的解決辦法