統一(yi)碼(ma)聯盟是(shi)一(yi)個致力于開發,維護,發展全球通(tong)用軟件標(biao)(biao)準(zhun)和(he)數據格(ge)式,特別是(shi)維護Unicode編(bian)碼(ma)標(biao)(biao)準(zhun)的非牟利機構。統一(yi)碼(ma)聯盟制定了一(yi)種可(ke)以對(dui)全球幾乎所有語(yu)言文字進行編(bian)碼(ma)的標(biao)(biao)準(zhun)。
其宗旨為最終以統一碼(ma)取代(dai)現存(cun)的字(zi)符(fu)編碼(ma)。因為現存(cun)編碼(ma)不能夠在(zai)多語言計(ji)算機環境(jing)中使(shi)用,而且字(zi)符(fu)數有局(ju)限。同時它也(ye)制定了數種統一碼(ma)轉換格式(UTF,Unicode Transformation Format)。
Unicode是為了(le)解決傳統(tong)的(de)(de)字符(fu)編碼(ma)方案的(de)(de)局限而(er)產生的(de)(de),例如ISO 8859-1所定義的(de)(de)字符(fu)雖然(ran)在不(bu)同(tong)的(de)(de)國家中廣泛地使(shi)用,可是在不(bu)同(tong)國家間卻經常出現(xian)不(bu)兼(jian)容的(de)(de)情況。
很多(duo)(duo)傳(chuan)統(tong)的(de)(de)編碼(ma)方(fang)(fang)式都有一個共同(tong)的(de)(de)問(wen)題,即容許計算機處理雙語環(huan)境(jing)(通常使用拉丁字(zi)母以及(ji)其本地語言(yan)(yan)),但卻無法(fa)同(tong)時支持(chi)多(duo)(duo)語言(yan)(yan)環(huan)境(jing)(指可同(tong)時處理多(duo)(duo)種(zhong)語言(yan)(yan)混合(he)的(de)(de)情況)。Unicode編碼(ma)包含(han)了不同(tong)寫法(fa)的(de)(de)字(zi),如“ɑ/a”、“強/強”、“戶/戶/戸”。然而在(zai)漢(han)字(zi)方(fang)(fang)面引起(qi)了一字(zi)多(duo)(duo)形(xing)的(de)(de)認定(ding)爭議(詳(xiang)見中日韓統(tong)一表意文(wen)字(zi)主題)。
在文(wen)字(zi)(zi)處理(li)(li)方面,統一碼(ma)為每一個字(zi)(zi)符(fu)而(er)非字(zi)(zi)形(xing)定義(yi)唯一的代碼(ma)(即一個整數(shu))。換句話(hua)說,統一碼(ma)以一種抽象的方式(shi)(即數(shu)字(zi)(zi))來(lai)處理(li)(li)字(zi)(zi)符(fu),并將視覺(jue)上的演繹工(gong)作(例(li)如字(zi)(zi)體大小、外觀形(xing)狀、字(zi)(zi)體形(xing)態(tai)、文(wen)體等(deng))留給其(qi)他(ta)軟(ruan)件來(lai)處理(li)(li),例(li)如網頁瀏覽器或(huo)是文(wen)字(zi)(zi)處理(li)(li)器。
幾乎所有(you)計算(suan)機(ji)系(xi)統都支持基本(ben)拉丁(ding)字(zi)母(mu),并各自(zi)支持不(bu)同的(de)其他(ta)編碼方式。Unicode為了和它們相(xiang)互兼容,其首(shou)256字(zi)符保留給ISO 8859-1所定義的(de)字(zi)符,使既(ji)有(you)的(de)西歐語系(xi)文字(zi)的(de)轉(zhuan)換不(bu)需特別考量;
并且把大量相(xiang)(xiang)同的(de)(de)(de)字符重復編(bian)(bian)到(dao)不同的(de)(de)(de)字符碼中去,使得舊有紛雜的(de)(de)(de)編(bian)(bian)碼方(fang)式得以(yi)和(he)Unicode編(bian)(bian)碼間互相(xiang)(xiang)直接轉換,而不會(hui)丟失任何信息(xi)。舉(ju)例來說,全(quan)角格(ge)式區段(duan)包含了主要的(de)(de)(de)拉丁(ding)字母的(de)(de)(de)全(quan)角格(ge)式,
在中(zhong)文(wen)、日文(wen)、以及韓文(wen)字形當中(zhong),這(zhe)些(xie)字符以全角的(de)(de)方式(shi)來(lai)呈現,而不以常見的(de)(de)半角形式(shi)顯示,這(zhe)對豎(shu)排文(wen)字和等寬(kuan)排列文(wen)字有重要作用。
在(zai)(zai)表(biao)示一個(ge)Unicode的字(zi)符時(shi),通常會用“U+”然后緊接(jie)著(zhu)一組十(shi)六進制(zhi)的數字(zi)來表(biao)示這一個(ge)字(zi)符。在(zai)(zai)基本多文種平面(英(ying)文:Basic Multilingual Plane,簡寫(xie)BMP。又稱為“零號平面”、plane 0)里的所有字(zi)符,要(yao)用四(si)位十(shi)六進制(zhi)數(例如U+4AE0,共(gong)支持六萬多個(ge)字(zi)符);
在零(ling)號平面以外的(de)(de)字符則需要使用(yong)(yong)五位或六位十六進制數了。舊版的(de)(de)Unicode標準使用(yong)(yong)相近的(de)(de)標記(ji)方(fang)法,但卻有些微小差異:在Unicode 3.0里使用(yong)(yong)“U-”然后(hou)緊(jin)接(jie)著八位數,而“U+”則必須隨(sui)后(hou)緊(jin)接(jie)著四位數。
位于美國加州的(de)Unicode組織允(yun)許任何愿意支付會費的(de)公司和個人(ren)加入,其成員包含了主要的(de)計算機軟硬件廠商,例如奧多(duo)比系統、蘋(pin)果公司、惠普、IBM、微軟、施樂(le)等。
20世紀80年(nian)代末,組成Unicode組織(zhi)的商(shang)業(ye)機構,和(he)國(guo)(guo)際合作的國(guo)(guo)際標準化組織(zhi)因為(wei)計算(suan)機普及和(he)信息國(guo)(guo)際化的前(qian)提下,分(fen)別各自成立了(le)Unicode組織(zhi)和(he)ISO-10646工作小組。
他們(men)不久便發現(xian)對(dui)方的(de)存在,大家為(wei)著相同(tong)的(de)目的(de)而(er)工作,于(yu)是兩(liang)個組(zu)織便共(gong)同(tong)合(he)作開發適用于(yu)各國(guo)語言(yan)的(de)通用碼,而(er)且“相當有默契地”各自發表Unicode和ISO-10646字(zi)集(ji)(ji)。雖然(ran)實(shi)際上兩(liang)者的(de)字(zi)集(ji)(ji)編碼相同(tong),但實(shi)質上兩(liang)者確實(shi)為(wei)兩(liang)個不同(tong)的(de)標準(zhun)。
統一碼(ma)聯盟(meng)在1991年首次發(fa)布了(le)The Unicode Standard。Unicode的(de)開發(fa)結合了(le)國際標準化組(zu)織所制定的(de)ISO/IEC 10646,即(ji)通用(yong)字符(fu)集。Unicode與ISO/IEC 10646在編碼(ma)的(de)運作原(yuan)理(li)相同,
但The Unicode Standard包含(han)了(le)更詳盡的(de)(de)實現信息、涵蓋了(le)更細節的(de)(de)主題,諸(zhu)如比特(te)編碼(bitwise encoding)、校對(dui)以(yi)及呈現等。The Unicode Standard也枚舉了(le)諸(zhu)多的(de)(de)字符特(te)性(xing),包含(han)了(le)那些(xie)(xie)必須支(zhi)持兩種閱讀方向(xiang)的(de)(de)文(wen)字(由(you)(you)左(zuo)至(zhi)(zhi)右(you)或由(you)(you)右(you)至(zhi)(zhi)左(zuo)的(de)(de)文(wen)字閱讀方向(xiang),例如阿拉伯(bo)文(wen)是(shi)由(you)(you)右(you)至(zhi)(zhi)左(zuo))。Unicode與ISO/IEC 10646這(zhe)兩個標準在(zai)術語上的(de)(de)使用有些(xie)(xie)微(wei)的(de)(de)不(bu)同。
2005年,Unicode的第(di)十萬(wan)個字符被引入成為標準之(zhi)一,該字符被用于(yu)馬來亞拉姆語(yu)。
2020年(nian),Unicode發布了13.0,共收錄143,859個字符。
統一碼(ma)聯盟(meng)由世界(jie)各地主要(yao)的(de)(de)電腦制造商、軟件開發(fa)商、數(shu)據庫開發(fa)商、政府部門、研究(jiu)機(ji)構、國際(ji)機(ji)構、各用戶組織及個(ge)人組成。統一碼(ma)聯盟(meng)的(de)(de)領(ling)導者及管理人員來(lai)自各個(ge)組織及行業(ye),代表著最(zui)廣泛的(de)(de)編碼(ma)應用。
統一碼聯盟包含(han)三個技術委(wei)員(yuan)會(hui)和一個編輯委(wei)員(yuan)會(hui):Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統一(yi)碼聯盟(meng)積極與各標準(zhun)制訂機構合作,包(bao)括國(guo)際(ji)標準(zhun)化組織(zhi)(ISO)、國(guo)際(ji)電工(gong)委員會(IEC)、萬維網(wang)聯盟(meng)(W3C)、互聯網(wang)工(gong)程(cheng)工(gong)作小組(IETF)和(he)歐洲計算(suan)機制造(zao)協會(ECMA)等(deng)。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標準(zhun)》(The Unicode Standard)
《字符數(shu)字庫》(Character Database)
《Unicode技術準(zhun)備和報告》(Unicode Technical Standards and Reports)
《Unicode技術說明書》(Unicode Technical Notes)等等。
統一(yi)碼(ma)的(de)成功(gong)讓計算機使用進入(ru)了一(yi)個新(xin)紀元,并(bing)應(ying)用于很多新(xin)技術,如XML、Java編(bian)程語言(yan)和現今的(de)操作系統。