1、 1 資訊技術廣用多八位元編碼字元集 ( UCS)第1部:架構及基本多語文字面 印月 94 10 月 本標準非經本局同意得翻印 中華民國國家標準 CNS 總號 號 ICS 35.040 14649-1 X5066-1經濟部標準檢驗局印 公布日期 修訂公布日期 91 6 月 6 日 月 日 (共 1103 頁)Information technology Universal multiple Octet coded character set (UCS) Part 1 : Architecture and basic multilingual plane 1. 適用範圍 本標準規定廣用多八位元編
2、碼字元集( UCS)。適用於全球各種語文的書寫形式和附加符號的表示、傳輸、交換、處、儲存、輸入和表達。 2. 用語釋義 本標準引用下定義: (1) 基本多語文字面 (Basic Multilingual Plane,簡稱 BMP): 00 群組的 00 字面。 (2) 區塊 (block):一組有共通特性的相字元的匯集,比如文字。 (3) 正準形式 (canonical form):本編碼字元集的字元,依規定使用四個八位元表示的形式。 (4) 編碼字元資元件 (coded-character-data-element,簡稱 CC-Data-Element):交換資訊的元件,規定為依據一或多個別
3、的編碼字元集標準,由字元的編碼表示順序組成。 (5) 格 (cell):中的某位置,可配置一個字元。 (6) 字元 (character):為基本位元組合,用於資的組織、控制或表示。 (7) 字元邊界 (character boundary) :在八位元中,編碼表示的一字元中最後的八位元,和下字元的前面八位元之間的分界。 (8) 編碼字元 (coded character):字元及其編碼表示。 (9) 編碼字元集 (coded character set) :一組明確的規則,用以建字元集,以及當中字元及其編碼表示間的關係。 (10) 編碼表 (code table):出每一多八位元組合所配置之
4、字元表。 (11) 匯集 (collection):一組已編號並命名的編碼字元,其由一個以上可別範圍內的所有編碼字元所組成。 備考:此可別範圍內含有尚未配置字元的碼位,當本標準未修正時,任一新指定加入此匯集的額外字元,均將使匯集的字庫改變。唯在本標準未的版本中,匯集號碼及其名稱仍將保持變。 (12) 組合字元 (combining character) :為本標準編碼字元集的別子集,用於與前導非組合圖形字元組合,或與由非組合字元前導的組合字元序組合(照第2.(14)節)。 備考:本標準規定某些包括組合字元在內的某些子集匯集。 (13) 相容字元 (compatibility character
5、):所納入圖形字元包含在本標準的編碼字元內,係為與現存的編碼字元集(如 CNS 11643)相容。 2 CNS 14649-1, X 5066-1 (14) 合成序列 (composite sequence):由非組合字元其後跟隨一或多個組合字元所組成的圖形字元序列 ( 參照第 2. (12) 節 )。 備考 1:合成序列的圖形符號,一般是由序列中每個字元所組成的圖形符號構成。 2:合成序列不是字元,因此不是本標準字庫中的成員。 (15) 控制功能 (control function):能影響資料記錄、處理、傳輸,及解釋的作用,且具有由一或多個八位元所組成的編碼表示。 (16) 預設狀態 (d
6、efault state) :當狀態未明確指定時的假設狀態。 (17) 詳細編碼表 (detailed code table) :顯示個別字元的編碼表,通常也顯示部分的列。 (18) 裝置 (device):資訊處理設備的組件,可傳送及( 或 )接收編碼字元資料元件中的編碼資訊。(可為習知的輸出 /入裝置,或如同應用程式或閘道功能的處理。) (19) 固定匯集 (fixed collection) :於可識別範圍內的每一碼位均已配置字元的匯集,在本標準未來版本中將保持不變。 (20) 圖形字元 (graphic character):控制功能以外的字元,通常代表目視可辨的手寫、列印或顯示字元。
7、 (21) 圖形符號 (graphic symbol) :圖形字元或合成序列的視覺表示。 (22) 群組 (group) :本編碼字元集的編碼子區間,有 256 256 256 格。 (23) 上半區 (high-half zone):保留用於 UTF-16(參照附錄 3)的格集合;對應其中任何一格的列格元件可當作列格元件對的第一個,表示此字元是出自 BMP 以外的字面。 (24) 交換 (interchange):使用通信方法或交換媒介,把字元編碼資料從一個使用者轉移到另一個使用者。 (25) 交互工作 (interworking) :允許兩個或多個使用不同編碼字元集的系統,對交換字元編碼資
8、料進行具有意義的處理,其中可以包括兩種碼的轉換。 (26) 下半區 (low-half zone):保留用於 UTF-16(參照附錄 3)的格集合;對應其中任何一格的列格元件可當作列格元件的第二個,表示此字元是出自 BMP 以外的字面。 (27) 八位元 (octet) :可視為單元的、有序的八個位元的序列。 (28) 字面 (plane) :群組中的子區間,有 256 256 格。 (29) 表現 (presentation) :書寫、印出或顯示圖形符號的處理。 (30) 表現形式 (presentation form):在某些文字表現中,依據字元與其他字元相對位置,代表字元的圖形符號形式。
9、 (31) 專用字面 (private use planes):在編碼字元集中,其內容不由本標準規定的字面(參照第 10.1 節)。 (32) 列格元件 (RC-element) :取自四個八位元序列(正準形式),由列 (R)八位元及格(C) 八位元組成的雙八位元序列(參照第 6.2 節),可對應到編碼字元集編碼空間的一格。 (33) 字庫 (repertoire):規定的字元集,表現為編碼字元集。 (34) 列 (row):字面的子區間,共 256 格。 (35) 文字 (script) :使用於一或多個語言書寫形式的圖形字元集。 3 CNS 14649-1, X 5066-1(36) 輔助
10、字面 (supplementary plane):用以收容未被配置到 BMP 的字元的字面。 (37) 不配對列格元件 (unpaired RC-element):編碼字元資料元件中,列格元件具以下兩種情況之一: (a) 一個出自上半區的列格元件之後不是緊接一個出自下半區的列格元件。 (b) 一個出自下半區的列格元件之前不是緊接一個出自上半區的列格元件。 (38) 使用者 (user):使用由裝置提供服務的個人或其他實體。(例如,若“裝置”是轉碼或閘道功能,則這個實體可以是應用程式。) (39) 區 (zone):編碼表中格的序列,由一或多個整列或部分的列所組成,包含特定類別的字元(參照第 8
11、 節)。 3. 概述 本標準規定 UCS 全體的架構,並且: (1) 定義本標準使用的術語。 (2) 敘述編碼字元集的一般結構。 (3) 規定 UCS 的 BMP,應定義全世界所用文字和語言書寫形式之圖形字元集。 (4) 規定 BMP 的圖形字元名稱,和編碼表示。 (5) 規定 UCS 的四個八位元 (32 位元) 的正準形式:UCS-4 。 (6) 規定 UCS 的雙八位元 (16 位元) 的 BMP 形式:UCS-2 。 (7) 規定控制編碼字元集的編碼表示。 (8) 規定本編碼字元集未來擴增的管理。 UCS 不同於 CNS 7654 所規定的編碼系統。第 16.2 節規定從 CNS 76
12、54 指定到 UCS 的方法。 備考 1: Unicode 標準 3.0 版所提供的字元集,其字元名稱和編碼表示與本標準完全相同。另外該標準並提供了有助於實作的詳細字元性質、處理演算法及定義等資訊。 備考 2:若相關國家標準組織或其他合格專家提供了足夠的資訊及評論,額外的文字與符號亦將予以編碼納入本標準。 4. 符合性 4.1 一般性:無論何時,若依照本標準的規定使用專用字元,則這些字元無須涵蓋下列各項符合性的需求。 4.2 資訊交換的符合性:在交換用的編碼資訊中,如果稱某編碼字元資料元件 (簡稱 CC-Data-Element) 符合本標準,則必須: (1)所有圖形字元的編碼表示均符合第 6
13、 及 7 節,並符合選自第 13 節、附錄 3或附錄 4 的識別形式,以及符合選自第 14 節的識別實作層次。 (2)所有圖形字元都取自可識別的子集中(參照第 12 節)。 (3)所有的控制功能編碼表示都符合第 14 節的規定。 符合性的宣告,應標識出所採用的形式,和所採用的實作層次,以及所採用以匯集及( 或 )字元表列方法的子集。 4 CNS 14649-1, X 5066-1 4.3 裝置的符合性:如果裝置符合下列選項(1) 的需求,以及(2) 、 (3)兩者或兩者之一,則可視為符合本標準。 備考:在第 2. (18) 節中“裝置”定義為資訊處理設備的組件,它能傳送及( 或 )接收編碼字元
14、資料元件中的編碼資訊。這個裝置可以是傳統的輸出 /入裝置,或應用程式或閘道功能。 符合性的宣告,應該識示出文件,其中包含下列(1)中規定,且說明所採用的形式、實作層次,以及子集(匯集及( 或 )字元的表列),同時依據第 15 節所採用控制功能的選擇。 (1) 裝置說明:符合本標準的裝置,應說明由使用者提供字元到裝置上和 (或 )提供使用者這些字元辨識它們的方法,如同下列(2) 和 (3)選項中的規定。 (2) 起源裝置:起源裝置允許使用者從所採用的子集中提供任何字元,並可依據所採用的形式及實作層次,在編碼字元資料元件中做為傳送字元的編碼表示。 (3) 接收裝置:接收裝置可依據所採用的形式及實作
15、的層次,做為在編碼字元資料元件中,接收及解譯每個字元的編碼表示,同時在所採用的子集中,任何相對應的字元,使用者都可依此方法辨識它們。 任何不在所採用的子集中的相關字元,應以某種方法告知使用者,不需他們去自行區別這些字元。 備考 1.告知使用者的方法可以是用相同字元表示所有不在被採用子集中的字元;或是在適合某類使用者時,提供可聽或可視的識別信號。 2.接收裝置的再傳輸能力,參照附錄 9。 5. UCS 的一般結構 本節敘述廣用多八位元編碼字元集(以下稱“本編碼字元集”)的一般結構,並附圖 1 及圖 2 加以說明。此結構的規格將於稍後的章節中說明。 在本標準中,任何八位元的值,均以從 00 到 F
16、F 的十六進位法來表示(參照附錄10)。 本編碼字元集的正準形式,即其構思的方法是使用被視為單一實體的四維編碼空間,此空間由 128 個三維的群組所組成。 備考:因此,在編碼字元的正準形式中,其最高有效八位元的第八個位元,在裝置中可因為內部處理的目的而使用,只要它在符合的編碼字元資料元件內被設定為零。 每個群組由 256 個二維的字面組成。每個字面由 256 個一維的列組成,每個列包含256 個格。在編碼空間中的每個格內,均有一個字元被定位及編碼;否則此格即被宣告為未使用。 在正準形式中,四個八位元用以表示每個字元,並分別規定群組、字面、列及格。由於雙八位元不足以涵蓋全球所有的字元,而且三十二
17、位元的表示法符合目前處理器的架構,所以正準形式是由四個八位元所組成。 四個八位元的正準形式,可當做四個八位元的編碼字元集來使用,這種情形稱為UCS-4。 5 CNS 14649-1, X 5066-1第一字面(00 群組的 00 字面)稱為基本多語文字面( BMP)。 BMP 包含一般使用的字母、音節符號、表意文字等字元,以及各樣的符號及數字。 第一字面以後的字面視為輔助或專用字面,可容納新增的圖形字元(參照第 9 節)。 保留專用的字面規定於第 10 節。本標準中未規定專用區中每格的內容。 在編碼字元集中,每個字元是依群組八位元、字面八位元、列八位元與格八位元來定位。 正準形式之外,另規定有
18、雙八位元 BMP 的形式。因此, BMP 可當做雙八位元編碼字元集來使用,識別為 UCS- 2。 為了給予圖形字元的次字庫,可使用編碼空間中的子集。 UCS 轉換格式(UTF-16)規定於附錄 3,可用雙八位元相容格式,表示 00 群組中BMP 以外的 16 個字面的字元。 UCS 轉換格式(UTF-8 )規定於附錄 4,可用於傳輸文本資料,以通過對 CNS 7654八位元結構及 CNS 7656 控制字元敏感的通訊系統。UTF-8 也避免使用依據 CNS 7656 規定,在廣泛使用的檔案處理系統中,剖析檔案名稱時有特殊意義的八位元字串。 6. 基本結構及命名 6.1 結構:本標準規定的廣用多
19、八位元編碼集應視為單一實體。 全部的編碼字元集,可視為包括 256 個字面的 128 個群組。每個字面包含 256列的字元,每個列包含 256 個格。在表示字面內容的編碼表中(如圖 2),水平軸表示最低的八位元,它的較小值靠左;而垂直軸表示較高的八位元,它的較小值在頂部。 編碼空間的每個軸應按八位元編碼。在每個八位元之中 ,最高的位元是位元 8,最低的位元是位元 1 。 每個位元的權重為: 80 位元 7 位元 6 位元 5 位元 4 位元 3 位元 2 位元 1128 64 32 16 8 4 2 1 6.2 字元編碼:在編碼字元集的正準形式中,全部編碼字元集中的每個字元,表示為四個八位元的
20、序列。此序列的最高八位元是群組八位元,其最低八位元是格八位元,因此可表示為: m.s. l.s. 群組八位元 字面八位元 列八位元 格八位元 m.s.表示最高(most significant) 八位元,l.s. 表示最低(least significant) 八位元。 為求簡潔,各個八位元也可用下列縮寫形式: m.s. l.s. G 八位元 P 八位元 R 八位元 C 八位元 在適當處,並可更簡化成 G、 P、 R 及 C。 八位元的值,應用兩個十六進位數字來表示,例如:31 或 FE。當單一字元被識別為群組值、字面值、列值和格值表示時,其方式如下: 6 CNS 14649-1, X 506
21、6-1 0000 0030 為數字 0 (DIGIT ZERO) 0000 0041 為拉丁大寫字母 A (ALATIN CAPITAL LETTER A) 當參照一個已識別字面的字元時,可省略 G 八位元及 P 八位元的前導四個零。例如,在 00 字面中引用數字 0 時,可以用 0030 代表數字 0。 圖 1 廣用多八位元編碼字元集全部的編碼空間 字面00 群組之 00字面群組之FF00字面 00群組之7F字面00群組之01群組7F群組 0100 群組 256 256 格每個字面: 7 CNS 14649-1, X 5066-1圖 2 廣用多八位元編碼字元集的 00 群組 D8F8 80
22、專用區F9FF 00010F E0FF字面八位元組基本多語文字面輔助字面專用字面0F, 10, E0 - F列八位元組格八位元組FF8000 S區D8DF 80 S 區及專用區規定於第 8 節中。6.3 八位元次序:一個字元的八位元表示順序,其最高及最低端點,應與圖 2 所示相符合。當串列為八位元時,較高的八位元應在較低的八位元前面。當串列不是八位元時,八位元的次序,可以依傳送者與接受者之間的約定來做規定(參照第 16.1 節及附錄 8)。 6.4 字元命名: 本標準的每一字元皆指定唯一的名稱。字元名稱可為下列之一: (1) 表示該字元最常見的意義;或 (2) 描述相當於該符號的形狀;或 (3
23、) 中日韓認同的表意文字(參照第 27 節)。 附錄 11 為上列(1)及 (2)項字元名稱的指引。 6.5 字元的短識別符:本標準的每一字元皆定義一個短識別符。任何字元的短識別符皆與其它字元的短識別符不同。這些短識別符與撰寫標準使用的語言無關, 不論本標準再翻譯成任何語言,這些短識別符都維持不變。 短識別符的替代記法形式定義如下: 8 CNS 14649-1, X 5066-1 (1) 八位數形式的短識別符必須是八個十六進位數字的序列,表示字元編碼位置(參照第 6.2 節)。 (2) 四位數字形式的短識別符必須是八位數字形式的後四位數字。若八位數字形式的前四位數字不是全部為 0,即 BMP
24、以外的字元,不定義四位數字的短識別符。 (3) 八位數字短識別符的前面可任意加上連接符或減號“”。 (4) 四位數字短識別符的前面可任意加上加號“”。 (5) 以上 (1)至 (4)項四種短識別符定義中的任何一種,皆可以用拉丁字母大寫 U為前置字元。 短識別符中出現的大寫字母 A 至 F,以及 U 可以用對應的小寫字母替換。 以 BNF 形式表示短識別符記法的完整語法如下: U|u +xxxx|-xxxxxxxx 其中“x ”表示一個十六進位數字(0 到 9, A 到 F, 或 a 到 f), 如: -hhhhhhhh +kkkk UhhhhhhhhU+kkkk 其中 hhhhhhhh 表示八
25、位數字形式,kkkk 表示四位數字形式。 備考:以拉丁小寫字母長 S 為例(參照表 3),可記成以下任一種形式: 0000017F-0000017FU0000017FU-0000017F 017F+017FU017FU+017F 其中任何大寫字母都可以用相對的小寫字母替換之。 7. UCS 的一般要點:下面特性適用於全部的編碼字元集。 (1)表示圖形字元的 P、 R 及 C 八位元的值,必須在 00 到 FF 的範圍內。表示圖形字元的 G 八位元的值,必須在 00 到 7F 的範圍內。任何字面的 FFFE 及 FFFF 二個位置的碼均不得使用。 備考:FFFE 位置的碼是保留給“簽署”使用(參
26、照附錄 8)。在需要使用一個數字,確定不會被當做一個編碼字元使用時,FFFF 位置的碼可用於內部處理,比如用在終止表格,或文本結束信號的時候。由於它是最大的雙八位元值,也可被使用為二進位或循序搜尋索引的最終值。 (2)除了專用字元或轉換格式保留的位置外,尚未配置字元的編碼位置是保留給未來使用,不得用於其他任何目的。本標準在保留給專用字元或轉換格式的編碼位置上,不配置任何字元。 (3)相同圖形的字元不會被分配到多於一個碼的位置。在本編碼字元集中有些形狀相似的圖形字元,在用於不同的目的中,有著不同的字元名稱。 8. 基本多語文字面: 00 群組的 00 字面是 BMP。 BMP 可當做雙八位元編碼
27、字元集使用,此即稱為 UCS-2(參照第 13.1 節)。 BMP 中的編碼位置從 0000 0000 到 0000 001F 保留給控制字元使用,編碼位置 0000 007F 保留給刪除字元(DELETE )使用(參照第 15 節)。編碼位置從 0000 0080到 0000 009F 亦保留為控制字元。 9 CNS 14649-1, X 5066-1編碼位置從 0000 D800 到 0000 DFFF 保留給 UTF-16 使用(參照附錄 3),稱為 S區。編碼位置從 0000 E000 到 0000 F8FF 保留作為專用(參照第 10 節),稱為專用區。編碼位置從 0000 FFFE
28、 到 0000 FFFF 的位置保留。 9. 其他字面 9.1 保留給未來使用的字面:00 群組中的 11 到 DF 字面,以及 01 到 5F 群組中的00 到 FF 字面,保留給未來使用,因此該編碼位置不得作其他使用。 9.2 UTF-16 可存取的字面:00 群組的 01 到 10 字面中,每個編碼位置都有唯一的映射到依據 UTF-16 編碼表示形式(參照附錄 3)的四個八位元序列,此形式相容於 UCS-2 的雙八位元 BMP 形式(參照第 13.1 節)。 00 群組的 11 到 FF 字面或其他群組的 00 到 FF 字面中,不可以映射到 UTF-16形式。 10. 專用群組、字面及
29、區 10.1 專用字元:本標準對專用字元沒有用任何方法加以限制。專用字元可用於提供使用者定義的字元。例如,對表意文字的使用者而言,這是共通的需求。 備考 1: 為使專用字元做有意義的交換,在傳送者及接受者之間,應有協定但與本標準無關。 這些專用字元可做為動態可再定義字元(DRCS )應用。 備考 2: 為使 DRCS 作有意義的交換,在傳送者及接受者之間,應有協定但與本標準無關。本標準未指定用以定義或設定動態可再定義字元的技術。 10.2 專用字元的編碼位置:從 60 群組到 7F 群組,共 32 個群組的編碼位置均為專用區。 00 群組的 0F、 10 字面及 E0 到 FF 共 32 個字
30、面的編碼位置也是專用區。 BMP 中從 E000 到 F8FF 的 6400 個編碼位置亦作為專用區。 這些編碼位置的內容在本標準中沒有規定(參照第 10.1 節)。 11. UCS 的修改及更新:本編碼字元集的修改及更新,由 ISO/IEC JTC1/SC2 主其事。 備考:本標準中的字元名稱及字元配置在未來版本中將維持不變。 12. 子集:本標準提供了編碼圖形字元的子集規格,以便源起裝置和接收裝置的交換使用。 子集規格有兩種:限定子集及選擇子集。使用子集時可以包括兩者之中的一種,或是兩種子集的組合。 12.1 限定子集:限定子集由特定子集內的圖形字元表列所組成。這個規格允許使用其他編碼發展
31、出的應用軟體及裝置,可以與本編碼字元集交互工作。 引用限定子集的符合宣告,必須依本標準定義的圖形字元名稱或編碼位置,列出該子集的圖形字元。 12.2 選擇子集:選擇子集由本標準定義的圖形字元匯集表列所組成。附錄 1 中列出可選擇的匯集。本標準中的每個選擇子集通常都自動地包含了 00 群組 00 字面00 列的 20 到 7E 格。 10 CNS 14649-1, X 5066-1 引用選擇子集的符合宣告,必須依本標準的定義,列出所選擇的匯集。 13. UCS 的編碼表示形式:本標準提供字元編碼表示的四種替代形式。其中兩種形式於本節中規定,另外兩種(即 UTF-16 及 UTF-8)分別規定於附
32、錄 3 及附錄 4。 備考:CNS 5205 資訊技術資訊交換用七位元編碼字元集 IRV 字庫中的字元,可由他們在 CNS 5205 IRV 中的編碼表示,做簡單的 0 延伸編碼。因此,當使用 8 位元、 16 位元或 32 位元整數表示時,他們的編碼表示有相同的整數值。 對零值八位元有作用的實作 (例如:用於字串終止) ,必須避免以八位元為基礎陣列的資料型式,因為任何零值八位元,皆可能作不正確的解譯。對 UCS-2 而言,使用至少 16 位元寬的資料型式較為合適,就 UCS-4 而言,使用至少 32 位元寬的資料型式較為合適。 13.1 雙八位元 BMP 形式:此編碼表示形式允許使用 BMP
33、 字元,每個字元用雙八位元來表示。 在符合雙八位元 BMP 形式的編碼字元資料元件之中, BMP 的每個字元,應該用雙八位元,如同在第 6.2 節(即其列格元件)所指定的包括了 R 八位元及 C八位元。 備考:為處理方便,使用雙八位元 BMP 形式的編碼圖形字元,可由 16 位元的整數實現之。 13.2 四個八位元的正準形式:此正準形式允許使用本標準所有的字元,每個字元以四個八位元表示之。 在符合四個八位元正準形式的編碼字元資料元件之中,每個字元以四個八位元表示之,如同在第 6.2 節所指定的包括了 G 八位元、P 八位元、 R 八位元及 C八位元。 備考:為處理方便,使用四個八位元正準形式的
34、編碼圖形字元,可由 32 位元的整數實現之。 14. 實作層次:本標準規定了實作三個層次。組合字元在第 23 節敘述,並於附錄 2 中表列出來。 14.1 實作層次一:當使用實作層次一時,編碼字元資料元件不包含組合字元的編碼表示(參照附錄第 2.1 節),也不包含韓文拼音符號(HANGUL JAMO )區塊的字元編碼表示(參照第 24 節)。使用實作層次一時,適用第 25.2 節的唯一拼音規則。 14.2 實作層次二:當使用實作層次二時,編碼字元資料元件不包含在附錄第 2.2 節表列出來的字元編碼表示。使用實作層次二時,適用第 25.2 節的唯一拼音規則。 14.3 實作層次三:當使用實作層次
35、三時,編碼字元資料元件可包含任何字元的編碼表示。 15. UCS 內控制功能的使用:本編碼字元集提供依據 CNS 7654 資訊處理七位元及八位元編碼字元集延碼技術 、 CNS 13479 資訊技術編碼字元集的控制功能 或類似結構的控制功能標準所編訂的控制功能的使用。按前述各種標準編訂的控 11 CNS 14649-1, X 5066-1制功能集或子集可與本編碼字元集連結使用。這些標準都是以一或多個八位元序列進行控制功能的編碼。 當 CNS 13479 中的控制字元,與本編碼字元集一起使用時,它的編碼表示如同 CNS 13479 中所規定的,在採用的形式中應填補相對應的八位元數字(參照第 13
36、 節及附錄 3、 4)。因此,最低有效八位元應是在 CNS 13479 中所指定的位元組合,而較高的八位元應為 0。 例如,饋表(FORM FEED )控制字元在雙八位元形式中表示為“000C ”,而在四個八位元形式中則為“0000 000C ”。 針對一些由編碼控制字元,且後面有範圍在 20 至 7F 之間的附加位元組合,所組成的逸出序列、控制序列及控制字串(參照 CNS 13479)而言,其中的每個位元組合應該由值為 00 的八位元填補之。 例如,逸出序列“ESC 02/00 04/00 ”在雙八位元形式中表示為“001B 0020 0040”,而在四個八位元形式中則為 “ 0000 00
37、1B 0000 0020 0000 0040”。 備考: 規定於 CNS 13479 的許多控制功能,其定義均出現“字元”此一術語,用以識別將被作用該控制功能的元件。當這些控制功能應用於依本標準編碼的字元之上時,控制功能的動作將視應用從本標準選定的元件型別而定,以作為該控制功能將作用的元件。當應用時,這些字元可能被選作為字元(如組合字元/ 非組合字元),或被以他種方式選定(如合成序列)。 CNS 7654 延碼技術中的延碼控制功能 (例如逸出序列、單一移位及鎖定移位等指定) ,不與本編碼字元集一起使用。 16. 特徵識別的宣告: 16.1 識別的目的及上下文:符合本標準的編碼字元資料元件,用以
38、形成發起者與接受者兩邊交換全部或部分的編碼資訊合成單位。發起者採用的本標準識別(包含其形式)、實作層次及編碼空間的任何子集,必須也為接受者所使用。向接受者告知這些識別的方式,則不在本標準規定的範圍。 然而,某些編碼資訊交換標準可能允許或要求,應用於編碼字元資料元件形式的識別編碼表示,也是交換資訊的一部分。本節所規定的編碼表示,是要以實作層次及本標準的子集做為 UCS 的識別,也為了要使 CNS 13479 中控制功能的 C0 和 C1 集與本標準能連結使用。這樣的編碼表示提供了識別資料元件的全部或部分,可依據相關標準被包含在資訊交換中。 如果出現兩種或兩種以上的識別,則這些識別的次序應遵循本節
39、的規定。 備考:附錄 13 敘述一種識別的替代方法。 16.2 UCS 編碼表示形式的識別及實作層次:當 CNS 7654 的逸出序列被使用時,本標準指定的 UCS 編碼表示形式的識別(參照第 13 節)及實作層次(參照第14 節),應經由選擇下面表列中的特定逸出序列指定之: ESC 02/05 02/15 04/00 UCS-2 的實作層次一 ESC 02/05 02/15 04/01 UCS-4 的實作層次一 ESC 02/05 02/15 04/03 UCS-2 的實作層次二 ESC 02/05 02/15 04/04 UCS-4 的實作層次二 ESC 02/05 02/15 04/05
40、 UCS-2 的實作層次三 12 CNS 14649-1, X 5066-1 ESC 02/05 02/15 04/06 UCS-4 的實作層次三 或者經由附錄 3.5 或附錄 4.6 的表列選擇。 如果在符合 CNS 7654 的編碼字元資料元件中,出現上述逸出序列,則只能依上述位元組合的序列組成。 如果在符合本標準的編碼字元資料元件中,出現上述逸出序列,則應依據第16 節做填補。 16.3 圖形字元子集的識別:當 CNS 13479 的控制序列被使用時,本標準所規定的子集(參照第 12 節)識別,應如下面所顯示的控制序列 IDENTIFY UNIVERSAL CHARACTER SUBSE
41、T (IUCS)的規定。 CSI Ps. 02/00 06/13 Ps.表示可為任意個數的可選擇參數的任何數目。這些參數是取自於子集的匯集編號,如本附錄 1 中所顯示本標準的每個部分。當有一個以上的參數時,每個參數值以一個值為 03/11 的八位元分隔。 參數值是由數字表示,在此是由八位元值 03/00 到 03/09 來表示數字 0 到 9。 如果在符合 CNS 7654 的編碼字元資料元件中,出現上述逸出序列,則只能依上述位元組合的序列組成。 如果在符合本標準的編碼字元資料元件中,出現這樣的控制序列,則應依據第15 節做填補。 16.4 控制功能集的識別:當 CNS 7654 的逸出序列被
42、使用時, CNS 13479 中接合使用的每個控制功能集(參照第 15 節)識別,應是如下所顯示的各型式識別符序列之一。 ESC 02/01 04/00識別 CNS 13479 C0 全集 ESC 02/02 04/03識別 CNS 13479 C1 全集 用於 C0 或 C1 集合的子集,最終的八位元 F 應由國際編碼字元集的登錄處獲得。這些集合的識別符序列是: ESC 02/01 F識別 C0 集 ESC 02/02 F識別 C1 集 如果在符合 CNS 7654 的編碼字元資料元件中,出現上述逸出序列,則只能依上述位元組合的序列組成。 如果在符合本標準的編碼字元資料元件中,出現這樣的逸出
43、序列,則應依據第15 節做填補。 16.5 由 UCS 返回 CNS 7654 的識別:當 CNS 7654 的逸出序列被使用時,由 UCS返回 CNS 7654 編碼系統的識別,用逸出序列 ESC 02/05 04/00。若此一逸出序列出現在符合本標準的編碼字元資料中,則應依據第 15 節做填補。 如果在符合 CNS 7654 的編碼字元資料元件中,出現上述逸出序列,則只能依上述位元組合的序列組成。 備考:逸出序列 ESC 02/05 04/00 通常用作為返回 CNS 7654 的回復狀態。由於有填補位元組的存在,此處規定的逸出序列 ESC 02/05 04/00 有時和CNS 7654
44、的規定不盡相同,因此第 16.2 節規定用於 UCS 的識別的逸出序列,包括了 02/15 位元組,以指出該返回並非完全符合該標準。 13 CNS 14649-1, X 5066-117. 編碼表及表列的結構:第 26 及 27 節列出了詳細的編碼表及圖形字元的字元名稱表列,同時也列出了每個所規定的圖形字元的編碼表示,以及字元名稱。 這些圖形符號被認為是典型的字元視覺表示。本標準並不指定每個字元的精確形狀。字元形狀受字型庫的設計所影響,此部分不在本標準規定的範圍。 在本標準中規定的圖形字元,名稱是它們唯一的識別;但並不意味這些字元的圖形符號一定不相同。例如,拉丁字母大寫 A、希臘字母大寫 A
45、及斯拉夫文字母大寫 A 均為有相似圖形符號的圖形字元。 本標準未規定任何字元的屬性意義;在不同的國家或不同的應用中意義可能不同。 對字母文字而言,安排每一列字元的一般原則大致依字母順序,有大寫及小寫字母時,要成對安排。然而,這個一般的原則在某些狀況下無效。例如,有些文字已有相關的標準存在,字元就依據原標準來配置。編碼表中的這種安排,將可幫助現存標準與本編碼字元集之間的轉換。然而一般來說,可預期本編碼字元集與任何其他編碼字元集之間的轉換,將使用某種查表技術。 本標準並不意圖將任何使用者所需要的字元,聚集成群做為本編碼表的一部分。 另外,任何文字的使用者將會發現,所需字元可能已編入本編碼字元集中,
46、特別是在數字、符號以及雙語文應用中的拉丁字母更是如此。 因此,使用本編碼字元集時,建議先參考第附錄 1.2 中的區塊名稱表列,或圖 3及圖 4,然後再查看相關的文字、符號及數字的特定編碼表列。此外,附錄 7 包含了依筆劃排序的字元名稱表列。 18. 區塊名稱:字面中所定義的連續碼位的區塊名稱,其目的為分配享有某些共通特徵(如某種文字)的字元。附錄 1 的第 1.2 節表列包含了 BMP 中所定義的各個區塊,其圖表詳見圖 3 及圖 4。 19. 雙向上下文中的字元:在雙向文本的上下文中,有一類左右相互配對的字元有特殊的意義。在這種上下文中,字元名稱中的術語左(LEFT )或右( RIGHT),其
47、意指字元形狀的“開”或“閉”的形式,而不是左方或右方的絕對形式。這些字元如下表所列。 碼 名 稱 0028 左括號 (LEFT PARENTHESIS) 0029 右括號 (RIGHT PARENTHESIS) 005B 左中括號 (LEFT SQUARE BRACKET) 005D 右中括號 (RIGHT SQUARE BRACKET) 007B 左大括號 (LEFT CURLY BRACKET) 007C 右大括號 (RIGHT CURLY BRACKET) 2045 帶翼左中括號 (LEFT SQUARE BRACKET WITH QUILL) 2046 帶翼右中括號 (RIGHT SQ
48、UARE BRACKET WITH QUILL) 207D 上標左括號 (SUPERSCRIPT LEFT PARENTHESIS) 207E 上標右括號 (SUPERSCRIPT RIGHT PARENTHESIS) 208D 下標左括號 (SUBSCRIPT LEFT PARENTHESIS) 208E 下標右括號 (SUBSCRIPT RIGHT PARENTHESIS) 14 CNS 14649-1, X 5066-1 碼 名 稱 2329 左尖括號 (LEFT-POINTING ANGLE BRACKET) 232A 右尖括號 (RIGHT-POINTING ANGLE BRACKE
49、T) 3008 左角括號 (LEFT ANGLE BRACKET) 3009 右角括號 (RIGHT ANGLE BRACKET) 300A 左雙角括號 (LEFT DOUBLE ANGLE BRACKET) 300B 右雙角括號 (RIGHT DOUBLE ANGLE BRACKET) 300C 左直角括號 (LEFT CORNER BRACKET) 300D 右直角括號 (RIGHT CORNER BRACKET) 300E 左空直角括號 (LEFT WHITE CORNER BRACKET) 300F 右空直角括號 (RIGHT WHITE CORNER BRACKET) 3010 左凸鏡括號 (LEFT BLACK LENTICULAR BRACKET) 3011 右凸鏡括號 (RIGHT BLACK LENTICULAR BRACKET) 3014 左龜甲括號 (LEFT TORTOISE SHELL BRACKET) 3015 右龜甲括號 (RIGHT TORTOISE SHELL BRACKET) 3016 左空
copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1