統(tong)一碼(ma)(ma)(ma)聯盟是一個致力于開發,維護,發展全球通(tong)用(yong)軟件標準和數據格式(shi),特別是維護Unicode編(bian)碼(ma)(ma)(ma)標準的非牟利機構。統(tong)一碼(ma)(ma)(ma)聯盟制(zhi)定了一種可以對全球幾乎所有語言文字進行編(bian)碼(ma)(ma)(ma)的標準。
其宗(zong)旨為(wei)最終以統(tong)一碼(ma)取代現(xian)存的(de)字符編碼(ma)。因為(wei)現(xian)存編碼(ma)不能夠在多語(yu)言計算(suan)機環境中(zhong)使用,而且字符數(shu)有(you)局限。同時它也制(zhi)定了數(shu)種(zhong)統(tong)一碼(ma)轉換格式(UTF,Unicode Transformation Format)。
Unicode是為了解決傳統(tong)的(de)(de)字(zi)符編(bian)碼方案的(de)(de)局限(xian)而產(chan)生的(de)(de),例如ISO 8859-1所(suo)定義的(de)(de)字(zi)符雖然(ran)在不同的(de)(de)國(guo)(guo)家中(zhong)廣泛地使(shi)用,可是在不同國(guo)(guo)家間卻經常出現不兼容的(de)(de)情況(kuang)。
很多傳統的(de)編碼(ma)方(fang)(fang)式都有一個共同(tong)的(de)問題,即容許計(ji)算機處理雙語(yu)環境(通常使用拉丁(ding)字(zi)母以(yi)及其本(ben)地語(yu)言),但(dan)卻無(wu)法同(tong)時(shi)支持多語(yu)言環境(指可同(tong)時(shi)處理多種語(yu)言混合(he)的(de)情況)。Unicode編碼(ma)包含了(le)不同(tong)寫(xie)法的(de)字(zi),如“ɑ/a”、“強/強”、“戶/戶/戸”。然而(er)在漢字(zi)方(fang)(fang)面引起(qi)了(le)一字(zi)多形(xing)的(de)認定(ding)爭議(詳見中日韓(han)統一表(biao)意文(wen)字(zi)主(zhu)題)。
在文(wen)字(zi)(zi)處理方(fang)(fang)面,統(tong)一(yi)(yi)碼(ma)為每一(yi)(yi)個(ge)字(zi)(zi)符而非字(zi)(zi)形定義(yi)唯(wei)一(yi)(yi)的代碼(ma)(即一(yi)(yi)個(ge)整數)。換句話說,統(tong)一(yi)(yi)碼(ma)以(yi)一(yi)(yi)種抽象(xiang)的方(fang)(fang)式(即數字(zi)(zi))來處理字(zi)(zi)符,并(bing)將視覺上的演繹(yi)工作(例如(ru)字(zi)(zi)體大小、外觀形狀、字(zi)(zi)體形態、文(wen)體等)留給其他軟件來處理,例如(ru)網頁(ye)瀏(liu)覽器或是文(wen)字(zi)(zi)處理器。
幾乎所(suo)有計算機系(xi)統都支(zhi)持基(ji)本拉(la)丁字(zi)母(mu),并(bing)各自支(zhi)持不(bu)同的其(qi)他編碼方式。Unicode為了(le)和它們相互兼容(rong),其(qi)首256字(zi)符保留給ISO 8859-1所(suo)定義的字(zi)符,使既有的西(xi)歐語系(xi)文字(zi)的轉(zhuan)換不(bu)需特(te)別考量(liang);
并且把大量(liang)相同的(de)字(zi)符(fu)重復編到不(bu)同的(de)字(zi)符(fu)碼中(zhong)去,使得舊有紛雜的(de)編碼方式得以和Unicode編碼間互(hu)相直接轉換(huan),而不(bu)會丟失任何信息。舉(ju)例來說,全角格(ge)式區(qu)段(duan)包含了主要的(de)拉丁字(zi)母(mu)的(de)全角格(ge)式,
在(zai)中文(wen)(wen)、日文(wen)(wen)、以及韓文(wen)(wen)字(zi)形(xing)當中,這些字(zi)符以全角(jiao)的(de)方式(shi)來呈現,而不以常見的(de)半角(jiao)形(xing)式(shi)顯示,這對豎排(pai)文(wen)(wen)字(zi)和等寬排(pai)列文(wen)(wen)字(zi)有重(zhong)要作用。
在表示一(yi)個Unicode的(de)字(zi)(zi)(zi)(zi)符(fu)時,通常(chang)會用“U+”然后(hou)緊接(jie)著一(yi)組(zu)十六(liu)進(jin)制的(de)數(shu)字(zi)(zi)(zi)(zi)來表示這(zhe)一(yi)個字(zi)(zi)(zi)(zi)符(fu)。在基(ji)本(ben)多文種平(ping)面(英文:Basic Multilingual Plane,簡寫(xie)BMP。又(you)稱為“零號平(ping)面”、plane 0)里的(de)所(suo)有(you)字(zi)(zi)(zi)(zi)符(fu),要用四位(wei)十六(liu)進(jin)制數(shu)(例如U+4AE0,共支(zhi)持六(liu)萬多個字(zi)(zi)(zi)(zi)符(fu));
在零(ling)號平面(mian)以外的(de)字(zi)符則需(xu)要(yao)使(shi)用(yong)五位(wei)(wei)(wei)或六位(wei)(wei)(wei)十(shi)六進制(zhi)數了。舊(jiu)版(ban)的(de)Unicode標(biao)準使(shi)用(yong)相近的(de)標(biao)記方法,但卻有(you)些微小差異:在Unicode 3.0里使(shi)用(yong)“U-”然后緊(jin)接著(zhu)(zhu)八位(wei)(wei)(wei)數,而“U+”則必須(xu)隨后緊(jin)接著(zhu)(zhu)四位(wei)(wei)(wei)數。
位于美國加(jia)州的(de)Unicode組(zu)織允許任(ren)何愿意支付會(hui)費(fei)的(de)公司和個人(ren)加(jia)入,其成員(yuan)包含了主(zhu)要(yao)的(de)計算(suan)機(ji)軟硬(ying)件廠商,例如(ru)奧多比(bi)系統、蘋(pin)果公司、惠普、IBM、微軟、施樂等。
20世紀80年代末,組(zu)成Unicode組(zu)織(zhi)的商業機構,和國際合作的國際標準化(hua)組(zu)織(zhi)因為計算機普(pu)及和信息(xi)國際化(hua)的前提(ti)下,分別各自(zi)成立(li)了Unicode組(zu)織(zhi)和ISO-10646工作小(xiao)組(zu)。
他們不(bu)久便發(fa)現對方的(de)(de)存(cun)在,大家(jia)為(wei)著相(xiang)同的(de)(de)目(mu)的(de)(de)而工作,于是兩個組織便共(gong)同合作開發(fa)適(shi)用(yong)于各國語言的(de)(de)通用(yong)碼,而且“相(xiang)當有默(mo)契地”各自發(fa)表Unicode和ISO-10646字集(ji)。雖然(ran)實(shi)際上(shang)兩者的(de)(de)字集(ji)編碼相(xiang)同,但實(shi)質上(shang)兩者確實(shi)為(wei)兩個不(bu)同的(de)(de)標準(zhun)。
統一(yi)碼聯盟在(zai)1991年首(shou)次發(fa)布了(le)The Unicode Standard。Unicode的(de)開(kai)發(fa)結合了(le)國際(ji)標準化組織所制(zhi)定的(de)ISO/IEC 10646,即(ji)通(tong)用字(zi)符集。Unicode與ISO/IEC 10646在(zai)編碼的(de)運作原理(li)相同,
但The Unicode Standard包(bao)含了(le)(le)更(geng)詳盡的實現信息、涵(han)蓋了(le)(le)更(geng)細節的主題,諸如比特編碼(bitwise encoding)、校對以及呈現等。The Unicode Standard也枚舉(ju)了(le)(le)諸多的字(zi)符特性,包(bao)含了(le)(le)那些必須(xu)支持兩(liang)種(zhong)閱讀方(fang)(fang)向的文字(zi)(由左至(zhi)右或由右至(zhi)左的文字(zi)閱讀方(fang)(fang)向,例如阿拉伯文是由右至(zhi)左)。Unicode與ISO/IEC 10646這兩(liang)個標準在術語(yu)上的使用有些微的不同。
2005年,Unicode的(de)第十萬個字符(fu)被(bei)引入成為標準之一,該字符(fu)被(bei)用于馬來亞(ya)拉姆(mu)語。
2020年,Unicode發(fa)布了13.0,共收錄143,859個字符(fu)。
統(tong)一(yi)(yi)碼聯盟(meng)由(you)世界各(ge)地主要的電腦制造商(shang)、軟件(jian)開(kai)發商(shang)、數據庫開(kai)發商(shang)、政府(fu)部門、研究機(ji)構、國際機(ji)構、各(ge)用(yong)戶(hu)組(zu)織(zhi)及個人組(zu)成。統(tong)一(yi)(yi)碼聯盟(meng)的領導者及管理人員來自(zi)各(ge)個組(zu)織(zhi)及行業,代表著最廣(guang)泛的編碼應(ying)用(yong)。
統一碼(ma)聯盟包含三個技術委員會和一個編輯(ji)委員會:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統一碼聯盟積極與各(ge)標準制訂機構合作,包括國(guo)際標準化組織(zhi)(ISO)、國(guo)際電工委員會(hui)(IEC)、萬維網聯盟(W3C)、互(hu)聯網工程工作小組(IETF)和歐洲計算機制造協會(hui)(ECMA)等。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標準(zhun)》(The Unicode Standard)
《字符數(shu)字庫》(Character Database)
《Unicode技術準備和報告(gao)》(Unicode Technical Standards and Reports)
《Unicode技術說明(ming)書》(Unicode Technical Notes)等等。
統一(yi)碼的成(cheng)功讓計算機使用(yong)進入了(le)一(yi)個新紀元(yuan),并應用(yong)于很多新技術(shu),如XML、Java編程語言和現今的操作(zuo)系統。