Unicode 3.1 的 70,195 個漢字(再外加一些 CJK 相容字區的漢字)裡,
共用「yneu」這個嘸蝦米碼的漢字高達 45 個,
是重碼字最嚴重的例子!

這是用 Excel 的「=COUNTIF()」函數跑出來,再去篩選的。
因為 Excel 跑大量資料的「=COUNTIF()」函數和篩選會跑得非常慢,
所以我就不對其他排名的重碼字的組字字根多作介紹,
有興趣的人可以下載「泰瑞系列中文輸入法對照表」回去跑看看。

咱們就來看一下這 45 個共用同一個嘸蝦米碼的字,長得有多像:

YNEU.jpg

圖中列出的這 45 個字,應該要扣掉兩個綠色的字和兩個橙色的字,
它們嚴格來說不該對應到「yneu」這個嘸蝦米碼,
綠色字的部分是蝦米族樂園的「Extension A/B 的嘸蝦米加字加詞檔」有誤,
它們應該對應到「jneu」這個嘸蝦米碼;
橙色字的部分是因為採用了行易嘸蝦米輸入法 7.0 的簡體中文中式打法(,,C)
而造成這兩個字也對應到「yneu」這個嘸蝦米碼;
但其餘的 41 個字應該對應到「yneu」這個嘸蝦米碼,這點是毫無疑問的。

兩個藍色字的差別在於「孚」字上方是否有一橫;
兩個紅色字的差別在於「几」的結尾是否有勾起,
其實這個「嗀」和「兀」是 Big5 碼的重複字,
它們在 Unicode 裡各佔了兩個字、兩個碼位,
大概是因為 Big5 都重複收錄了,
為了方便 Unicode 與 Big5 的對應,
Unicode 只好跟著重複收錄。

除了綠色字、橙色字、紫色字和第一個藍色字外,
其餘 39 個字,
依嘸蝦米的拆字原則都是先取「士」(y)、「冖」(n)、「一」(e),
最後再取「又」(u);
只是又碰上第二個藍色字的第三個字形(爫)也是取「e」,
而紫色字的最後一個字形(月)也是取「n」,
而造成了 41 個重碼字!

這算是嘸蝦米的罩門!
因為這些字的變化大多在「一」下面的字形,
嘸蝦米拆這些字時,取不到變化的字形,
所以只能接受 41 個重碼字的事實。

如果將嘸蝦米的取碼順序改成倉頡的取碼順序,
雖然可以解決這 41 個字的重碼問題,
但又會碰到倉頡的罩門─「鬻」的類似字!
只不過倉頡的「罩門字」只有 32 個字,比嘸蝦米的 41 個字少了一些。

如果各位用 Excel 的「=COUNTIF()」函數來分析「泰瑞嘸蝦米輸入法對照表」
(以下分析時使用沒有混合 VRSF 選字檔的對照表,
下載網址為:http://www.mediafire.com/file/42n9yovrdiz2zsx/THLiu.zip
中的「THLiu.txt」裡的漢字部分,將可發現:
有 31772 個組字字根不須選字,可直接出字
有 11119 個組字字根必須從 2 個候選字中選字
有 5076 個組字字根必須從 3 個候選字中選字
有 2674 個組字字根必須從 4 個候選字中選字
有 1427 個組字字根必須從 5 個候選字中選字
有 770 個組字字根必須從 6 個候選字中選字
有 428 個組字字根必須從 7 個候選字中選字
有 250 個組字字根必須從 8 個候選字中選字
有 167 個組字字根必須從 9 個候選字中選字
有 102 個組字字根必須從 10 個候選字中選字
有 58 個組字字根必須從 11 個候選字中選字
有 43 個組字字根必須從 12 個候選字中選字
有 20 個組字字根必須從 13 個候選字中選字
有 22 個組字字根必須從 14 個候選字中選字
有 9 個組字字根必須從 15 個候選字中選字
有 13 個組字字根必須從 16 個候選字中選字
有 7 個組字字根必須從 17 個候選字中選字
有 3 個組字字根必須從 18 個候選字中選字
有 2 個組字字根必須從 19 個候選字中選字
有 3 個組字字根必須從 20 個候選字中選字
有 2 個組字字根(eee、ewn)必須從 21 個候選字中選字
有 1 個組字字根(yneu)必須從 45 個候選字中選字
總共有 53968 種組字字根,對應到 101631 個字
(由於一個字可能有一種以上的組字字根,所以這 101631 個字有些是重複的)

arrow
arrow
    全站熱搜

    terryhung 發表在 痞客邦 留言(0) 人氣()