Big5 碼重複收錄的字,列表如下:
這兩個「兀」字在 6.02 版的新細明體裡是看不出來有什麼差異的,
即使把字體放大到 72 pt(或更大)也一樣!
但這兩個「嗀」字在 6.02 版的新細明體裡是可以看出有些差異的,
如果把字體放大到 72 pt 的話,左下方的「口」和右上方的「几」都有些不一樣。
字元 | 兀 | 兀 | 嗀 | 嗀 |
Big5 碼位(十六進位) | 0xA461 | 0xC94A | 0xDCD1 | 0xDDFC |
Big5 碼位(十進位) | 42081 | 51530 | 56529 | 56828 |
Big5 區域 | 常用字 | 次常用字 | 次常用字 | 次常用字 |
Unicode 碼位(十六進位) | U+5140 | U+FA0C | U+55C0 | U+FA0D |
Unicode 碼位(十進位) | 20800 | 64012 | 21952 | 64013 |
Unicode 區域 | CJK | CJK 相容字 | CJK |
CJK 相容字 |
另外,在李祥先生整理的這篇《倉頡輸入法重碼字揭秘》文章裡,
我們還可以找出 6 對字,
它們的差別只差在「月」字旁和「肉」字旁,它們是:
朘、脧;
朓、脁;
朐、胊;
朏、胐;
朣、膧;
冑、胄。
還有一對字差別只在「土」字旁和「士」字旁,它們是:
墫、壿。
撇開「酉」和「西」、「穀」和「榖」這些一劃之差的字,
還有幾對長得很像的倉頡重碼字,它們是:
日、曰;
汨、汩;
己、已;
喦、嵒;
苟、茍;
巂、雟。
一般公認 Big5 碼重複收錄了「兀」、「兀」和「嗀」、「嗀」,
雖然它們的碼位不同,但外形算是一模一樣。
如果不扣除重複的字,Big5 的漢字被計算為 13,053 字,
而這 13,053 個字又被分為「常用字」及「次常用字」。
兙、兛、兞、兝、兡、兣、嗧、瓩、糎,再加上「卄」,
這 10 個字被列入 Big5 符號區裡,不被當成漢字。
另外,倚天中文在造字區範圍裡,為 7 個字定義了專屬的碼位,
這 7 個字是:碁、銹、裏、墻、恒、粧、嫺。
以上這 17 個字在 ANSI 檔案編碼系統
(2 位元組的檔案編碼,繁體中文使用 Big5 字集)裡都能正常顯示,
所以在 ANSI 檔案編碼裡可以顯示的漢字應為 13,053 + 17 = 13,070 個字
(不包含符號)。
它們在 Unicode 1.0 裡被編入 CJK 字元集裡,
不再被當成符號或造字,而正式計入 CJK 的 20,902 個漢字裡。
在「Mozilla 系列與 Big5 中文字碼」這個網頁裡,
可以取得 Microsoft Windows 使用的 CP950 b2u 表格,
利用「Utilities: Unicode code converter」,
可以轉出表格裡的 Unicode 碼對應的字元,
轉出後,可以發現 Big5 碼位的 0xA2C3~0xA2CE 對應下列這些「符號」:
〡、〢、〣、〤、〥、〦、〧、〨、〩、十、卄、卅。
「〥」比較不像是漢字;
「〡」(U+3021)比較像 CJK 的「丨」(U+4E28);
「卄」雖然不在 Big5 常用字、次常用字合計的 13,053 字裡,但已經被編入 CJK 字元集。
「十」、「卅」則是在 Big5 常用字區、次常用字區之外,在符號區又被重複收錄了一次,
而前面 9 個字元都被 Unicode 當成符號。
註:
代表「二十」的應為「廿」(而不是「卄」),這個字有被編入 Big5 常用字區裡。
留言列表