Unicode 3.1 的 70,195 個漢字(再外加一些 CJK 相容字區的漢字)裡,
共用「nnmrb」(弓弓一口月)這個倉頡碼的漢字高達 32 個,
是重碼字最嚴重的例子!

這是用 Excel 的「=COUNTIF()」函數跑出來,再去篩選的。
因為 Excel 跑大量資料的「=COUNTIF()」函數和篩選會跑得非常慢,
所以我就不對其他排名的重碼字的組字字根多作介紹,
有興趣的人可以下載「泰瑞系列中文輸入法對照表」回去跑看看。

咱們就來看一下這 32 個共用同一個倉頡碼的字,長得有多像:

弓弓一口月.jpg

這些字依倉頡的拆字原則都是先取上面開頭的「弓」(n)和結尾的「弓」(n),
再取下面的「一」(m)、「口」(r)、「冂」(b);
而造成了 32 個重碼字!

這算是倉頡的罩門!
因為這些字的變化都是在兩個「弓」中間的字形,
倉頡拆這些字時,取不到變化的字形,
所以只能接受 32 個重碼字的事實。

如果將倉頡的取碼順序改成嘸蝦米的取碼順序,
雖然可以解決這 32 個字的重碼問題,
但又會碰到嘸蝦米的罩門─「殼」的類似字!
倉頡的「罩門字」只有 32 個字,比嘸蝦米的 41 個字少了一些,
所以繼續用倉頡原來的取碼順序還是好一點!

如果各位用 Excel 的「=COUNTIF()」函數來分析「泰瑞倉頡輸入法對照表」中的「THCJC.txt」
(未調整過的第三代與第五代倉頡組字字根)裡的漢字部分,將可發現:
有 55199 個組字字根不須選字,可直接出字
有 7895 個組字字根必須從 2 個候選字中選字
有 1729 個組字字根必須從 3 個候選字中選字
有 523 個組字字根必須從 4 個候選字中選字
有 175 個組字字根必須從 5 個候選字中選字
有 72 個組字字根必須從 6 個候選字中選字
有 37 個組字字根必須從 7 個候選字中選字
有 17 個組字字根必須從 8 個候選字中選字
有 4 個組字字根必須從 9 個候選字中選字
有 2 個組字字根必須從 10 個候選字中選字
有 1 個組字字根必須從 11 個候選字中選字
有 1 個組字字根(nnmrb)必須從 32 個候選字中選字
總共有 65655 種組字字根,對應到 80069 個字
(由於一個字可能有一種以上的組字字根,所以這 80069 個字有些是重複的)

創作者介紹

泰瑞的世界

terryhung 發表在 痞客邦 PIXNET 留言(0) 人氣()