官版行列輸入法對照表的重碼字數量分析 @ 泰瑞的世界

Unicode 3.1 的 70,195 個漢字裡，
共用「zkkfi」這個行列碼的漢字高達 17 個，
是重碼字最嚴重的例子！
這 17 個字是：
麯、䴵、䴶、䴸、䴽、𡙹、𢩟、𪌃、𪌉、𪌚、𪌰、𪌸、𪌻、𪍈、𪍎、𪍪、𪍵

這是用 Excel 的「=COUNTIF()」函數跑出來，再去篩選的。
因為 Excel 跑大量資料的「=COUNTIF()」函數和篩選會跑得非常慢，
所以我就不對其他排名的重碼字的組字字根多作介紹，
有興趣的人可以下載「官版行列輸入法對照表」回去跑看看。

「官版行列輸入法對照表」的下載網址是：
http://www.array.com.tw/BOX/BOX5.htm
將以下兩個對照表合併，即可得到和「泰瑞倉頡輸入法對照表」類似的對照表：
行列30鍵Unicode原始編碼文字檔 (2byte 部份）
行列30鍵Unicode原始編碼文字檔 (4byte 部份）

我使用【支援 CJK Ext-B 字元的「泰瑞注音輸入法對照表」（製作過程篇）】介紹的方式，
驗證合併後的行列30對照表的結果是：
官版的對照表只遺漏了一個字──「𠔆」（U+20506），
這可能是因為它與「𠔅」（U+20505）長得太像、碼位又相鄰的原因，
而被認為是重複的，以致遭到了刪除。
計算重碼字時當然有必要將它回復！
我為它取的組字字根與「𠔅」（U+20505）的一樣。

如果各位用 Excel 的「=COUNTIF()」函數來分析「官版行列輸入法對照表」裡的漢字部分，
將可發現：
有 54795 個組字字根不須選字，可直接出字
有 7502 個組字字根必須從 2 個候選字中選字
有 1765 個組字字根必須從 3 個候選字中選字
有 570 個組字字根必須從 4 個候選字中選字
有 253 個組字字根必須從 5 個候選字中選字
有 121 個組字字根必須從 6 個候選字中選字
有 62 個組字字根必須從 7 個候選字中選字
有 33 個組字字根必須從 8 個候選字中選字
有 24 個組字字根必須從 9 個候選字中選字
有 16 個組字字根必須從 10 個候選字中選字
有 9 個組字字根必須從 11 個候選字中選字
有 9 個組字字根必須從 12 個候選字中選字
有 2 個組字字根必須從 13 個候選字中選字
有 1 個組字字根必須從 14 個候選字中選字
有 1 個組字字根必須從 15 個候選字中選字
有 3 個組字字根必須從 16 個候選字中選字
有 1 個組字字根必須從 17 個候選字中選字
總共有 65167 種組字字根，對應到 80766 個字
（由於一個字可能有一種以上的組字字根，所以這 80766 個字有些是重複的）

以這樣的結果來看的話，行列30與倉頡的重碼率幾乎不相上下了，
雖然倉頡可以直接出字的組字字根較多，
但很多常用字需要取到 5 碼，行列30需要取到 5 碼的多為罕見字，
而且行列30有免費公開授權的官版對照表可以使用，
所以如果各位不想學倉頡的話，行列30是個值得考慮的次要選擇。
只是行列30的官版對照表刻意將 Big5 字元以外的罕見字的組字字根末尾加上「i」，
使得重碼率的比較失準許多，
而且對於較冷僻的字（如：冇、个），
究竟哪些字該於組字字根末尾加上「i」，哪些字不必加，也容易讓人莫衷一是，
這點在倉頡就不會發生，倉頡不搞行列30這一套，更不搞嘸蝦米分成多種模式那套，
如果不在乎碼長的話，學倉頡才是最佳選擇！

terryhung

泰瑞的世界

terryhung 發表在痞客邦留言(0) 人氣()

E-mail轉寄

泰瑞的世界

資訊科技喜好者泰瑞的心情點滴、研究心得、經驗分享、知識收錄、實驗筆記…

官版行列輸入法對照表的重碼字數量分析

留言列表

我的連結

文章分類

近期文章

最新迴響

部落格文章搜尋

RSS 訂閱

參觀人氣

泰瑞的世界

資訊科技喜好者泰瑞的心情點滴、研究心得、經驗分享、知識收錄、實驗筆記…

官版行列輸入法對照表的重碼字數量分析

留言列表

廣告橫幅

我的連結

文章分類

近期文章

最新迴響

部落格文章搜尋

RSS 訂閱

參觀人氣

廣告橫幅