Big5 碼重複收錄的字,列表如下:

這兩個「兀」字在 6.02 版的新細明體裡是看不出來有什麼差異的,
即使把字體放大到 72 pt(或更大)也一樣!

但這兩個「嗀」字在 6.02 版的新細明體裡是可以看出有些差異的,
如果把字體放大到 72 pt 的話,左下方的「口」和右上方的「几」都有些不一樣。

字元
Big5 碼位(十六進位) 0xA461 0xC94A 0xDCD1 0xDDFC
Big5 碼位(十進位) 42081 51530 56529 56828
Big5 區域 常用字 次常用字 次常用字 次常用字
Unicode 碼位(十六進位) U+5140 U+FA0C U+55C0 U+FA0D
Unicode 碼位(十進位) 20800 64012 21952 64013
Unicode 區域 CJK CJK 相容字 CJK

CJK 相容字


另外,在李祥先生整理的這篇《倉頡輸入法重碼字揭秘》文章裡,
我們還可以找出 6 對字,
它們的差別只差在「月」字旁和「肉」字旁,它們是:
朘、脧;
朓、脁;
朐、胊;
朏、胐;
朣、膧;
冑、胄。

還有一對字差別只在「土」字旁和「士」字旁,它們是:
墫、壿。

撇開「酉」和「西」、「穀」和「榖」這些一劃之差的字,
還有幾對長得很像的倉頡重碼字,它們是:
日、曰;
汨、汩;
己、已;
喦、嵒;
苟、茍;
巂、雟。

一般公認 Big5 碼重複收錄了「兀」、「兀」和「嗀」、「嗀」,
雖然它們的碼位不同,但外形算是一模一樣。
如果不扣除重複的字,Big5 的漢字被計算為 13,053 字,
而這 13,053 個字又被分為「常用字」及「次常用字」。
兙、兛、兞、兝、兡、兣、嗧、瓩、糎,再加上「卄」,
這 10 個字被列入 Big5 符號區裡,不被當成漢字。

另外,倚天中文在造字區範圍裡,為 7 個字定義了專屬的碼位,
這 7 個字是:碁、銹、裏、墻、恒、粧、嫺。

以上這 17 個字在 ANSI 檔案編碼系統
(2 位元組的檔案編碼,繁體中文使用 Big5 字集)裡都能正常顯示,
所以在 ANSI 檔案編碼裡可以顯示的漢字應為 13,053 + 17 = 13,070 個字
(不包含符號)。
它們在 Unicode 1.0 裡被編入 CJK 字元集裡,
不再被當成符號或造字,而正式計入 CJK 的 20,902 個漢字裡。

在「Mozilla 系列與 Big5 中文字碼」這個網頁裡,
可以取得 Microsoft Windows 使用的 CP950 b2u 表格,
利用「Utilities: Unicode code converter」,
可以轉出表格裡的 Unicode 碼對應的字元,
轉出後,可以發現 Big5 碼位的 0xA2C3~0xA2CE 對應下列這些「符號」:
〡、〢、〣、〤、〥、〦、〧、〨、〩、十、卄、卅。
「〥」比較不像是漢字;
「〡」(U+3021)比較像 CJK 的「丨」(U+4E28);
「卄」雖然不在 Big5 常用字、次常用字合計的 13,053 字裡,但已經被編入 CJK 字元集。
「十」、「卅」則是在 Big5 常用字區、次常用字區之外,在符號區又被重複收錄了一次,
而前面 9 個字元都被 Unicode 當成符號。

註:
代表「二十」的應為「廿」(而不是「卄」),這個字有被編入 Big5 常用字區裡。

arrow
arrow
    全站熱搜

    terryhung 發表在 痞客邦 留言(0) 人氣()