首先聲明一下:
朱邦復先生在發明倉頡輸入法時就已經想到
「字形」、「字音」、「字義」、「字碼」、「字序」、「字辨」這六大問題了!
依照他的理念,一字只能有一碼(倉頡碼,也就是組字字根),
唯有一字一碼才能實現他的理想境界(一套完整的倉頡系統),
所以在他的倉頡輸入法裡沒有「容錯」、「簡碼」這些會破壞一字一碼原則的東西。
他發表第五代倉頡後,又在他的某篇文章裡提到:
「
…去國多年,想不到在台灣居然有十多種倉頡的版本。
大家共同來努力改進是件好事,錯在筆者未曾料及,沒有把全部資料公開,
各人只得自行摸索,以致事倍功半。
現在,筆者又帶回了最後一個版本,就是第五代倉頡輸入法。
筆者保証再也不會有新的版本了。
倒不是倉頡第五代完美無缺,而是個人年事已高,精力有限,
加以市場的壓力,後事只有期待後人去解決了。
希望第五代能夠將以往各代統一下來,
今後各界如果有任何修改或需要加字的建議,務請通知筆者,責任在身,義不容辭。
但是千萬請不要自行修改,因為一定會有分別,將導致使用上的困難。
此外,也歡迎發展以往各種版本的公司,密切與筆者合作,
合作提供各種資料轉換的工具,以求服務過去的用戶…
」
由此可知,他希望倉頡使用者及軟體製造者都能移轉到第五代倉頡,並統一下來,
所以他有編了一本手冊,規範每個字要取的倉頡碼(仍舊為一字一碼)。
移轉的過程並不困難,
對已經學會第三代的倉頡族來說,學習第五代倉頡時並不會花太多時間,
因為第五代只是將第三代作小幅度的修改,
只要看完《維基教科書》的「倉頡輸入法/三代與五代編碼差異」這一篇文章,
就能順利學會第五代倉頡了!
但是受限於下列這些因素,軟體製造者是否要更新被影響到的字元的組字字根,
來符合第五代的原則,就有待商榷了!
1.現實環境:
多數使用者目前最常使用的是 Windows 作業系統,而不是一個完整的倉頡系統,
使用者只是用倉頡輸入法軟體進行「輸入字元」的動作,而沒有涉及上述的六大問題,
所以軟體製造者不見得願意跟進。
2.拆碼原則:
重碼字在所難免,如果強迫第二個(及其以後的)重碼字必須有不同的組字字根,
勢必會導致重碼字的組字字根違反取碼原則,成為例外字後,使用者只能強記了!
所以保留重碼字是有必要的,
頂多再為第二個(及其以後的)重碼字增加不同的組字字根,
方便有另外背誦的人快速出字。
3.使用習慣:
在 13,060 個 Big5 碼的漢字(有計入 7 個倚天造字區的漢字)範圍裡,
有 12,773 個字(超過 97.8% 的比例)的第三代、第五代的組字字根是相同的,
所以兩代的差異只影響幾百個字而已,有些使用者會認為:
「沒有必要為了這幾百個字,放棄使用了十幾、二十幾年的第三代,而改用第五代」。
綜合以上 3 點,為了討好老倉頡族,造福小倉頡族,我只好破壞「一字一碼」原則!
terryhung 發表在 痞客邦 留言(0) 人氣(1,494)
「泰瑞倉頡輸入法」與「泰瑞注音輸入法」的符號是共通的,
但因為「泰瑞注音輸入法」最大組字字根為 4 碼,所以將第 5 碼直接刪除;
唯一例外的有兩個:
1. yyyaa-yyyyo:將前 3 碼的「yyy」,縮減為「yy」。
2. table:改為「tab」。
terryhung 發表在 痞客邦 留言(0) 人氣(6)
「THCJC.txt」這個對照表是依照
《支援 CJK Ext-B 字元的「泰瑞倉頡輸入法對照表」(正式製作篇)》
該篇文章所述的程序及後記的說明而產生的純文字檔。
它保留「倉頡之友 。馬來西亞」(及補完檔)的第五代倉頡字根及 CNS 全字庫的第三代倉頡字根,
但為增加容錯的能力及提高輸入的速度,
建議使用的人可以依照下列項目修改對照表。
terryhung 發表在 痞客邦 留言(0) 人氣(510)
◎下載網址:
http://www.mediafire.com/file/cwicp98a065lxda/THCJ5.zip
◎官方網址:
http://terryhung.pixnet.net/blog
◎特色說明:
1.支援下列 Unicode Block 的漢字:
(1)CJK Unified Ideographs(中日韓統一表意文字,本區收錄 20,902 個漢字)
(2)CJK Unified Ideographs Extension A(中日韓統一表意文字擴充A,本區收錄 6,582 個漢字)
(3)CJK Unified Ideographs Extension B(中日韓統一表意文字擴充B,本區收錄 42,711 個漢字)
2.此輸入法對照表已為三區合計 70,195 個漢字的每個字編列「組字字根:詞組」對照。
3.此輸入法對照表支援符號輸入,組字字根最多 5 鍵(不含空白鍵)。
4.此輸入法對照表支援「倉頡第三代」及「倉頡第五代」拆碼原則。
因教育部較晚制定標準字體及其他原因,不可能每個字都符合「理論上」應有的拆碼原則,
如「今」字的標準字體,「人」下方應為「一」而非「丶」,但大多數倉頡使用者已習慣拆為「人戈弓」;
雖然此輸入法亦支援「人一弓」這條組字字根,
但由於字型及書寫習慣的關係,無法確保每個字都能按照您的認知來正確拆碼。
朱邦復先生制定的原則也未必是最好的,否則就不會不斷的改良
(如「┐」究竟應為「中」或「弓」的輔根,就一再的修改),
所以此輸入法對照表只是儘可能滿足不同的拆碼原則。
5.您可能需要安裝(或更新)系統字型以顯示擴充A、B區的漢字:
(1)Windows Vista、Server 2008 或更新的 Windows:不需要安裝或更新字型。
(2)Windows XP、Server 2003:請安裝「新細明體字型更新套件」,安裝後可再更新為「Vista 新細明體字型」。
(安裝方式請上官方網站查看)
◎特別注意:
因為「通用輸入法編輯工具」有 Bug,組字字根以「/」開頭時,必須再於組字字根之前加一個「/」,
所以輸入「?」時,雖是鍵入「/」加空白鍵,但在對照表裡,看到的會是「// ?」。
「Yahoo! 奇摩輸入法」目前的版本不支援擴充B區的漢字,
如有擴充B區漢字的需求,請改用「通用輸入法編輯工具」或「OpenVanilla 香草輸入法」。
◎安裝方式:
1.將「THCJA.txt」(「組字字根 V.S. 詞組」對照表)複製到「C:\」,
(如果複製到有中文路徑的資料夾下,
等會兒使用「通用輸入法編輯工具」匯入時,會產生錯誤)。
2.如果是 Windows XP、Server 2003 的使用者,
請執行「程式集→附屬應用程式→通用輸入法編輯工具」。
3.如果是 Windows Vista、Server 2008 的使用者,
因為 Windows 並無內建「通用輸入法編輯工具」,
請下載:http://www.mediafire.com/file/8ve8veq1wfe87bq/WinXP_IME.zip
解壓縮後,將「miniime.tpl」、「Uimetool.exe」、「uniime.dll」
複製到「C:\Windows\System32」,並執行「Uimetool.exe」,
這時「通用輸入法編輯工具」即可正常執行。
4.在「通用輸入法建立精靈」視窗中,
只有四個地方要作設定:
(1)輸入法名稱:請填入「泰倉」。
(2)產生 .IME 檔的英文檔名:請填入「THCJA」。
(3)對照表檔案:請以瀏覽檔案的方式帶入步驟 1 的「C:\THCJA.txt」。
(4)最大組字字根數目:請調成「5」。
5.上一步驟按「完成」按鈕後,
會在「C:\Windows\System32」之下產生四個檔名以「THCJA」開頭的檔案,
之後即可使用下列方式新增/移除這套輸入法:
【控制台→地區及語言選項→「語言」頁籤→「詳細資料」按鈕】,
叫出「文字服務及輸入語言」視窗,
並在它的「設定」頁籤下新增或移除「泰倉」。
◎對照表編輯方式:
1.可使用文書編輯軟體(建議使用 EditPlus 或 Notepad2,字型設為新細明體)開啟。
2.txt 格式的對照檔,最前面以「/S」開頭的那幾列,作用為宣告輸入法可用的按鍵,
例如:「/S A日」,代表宣告「A」成為可用的按鍵,
按下「A」時,會出現「日」,但不會直接出字,
需按下「空白鍵」後,輸入法才會去找對應的「組字字根 V.S. 詞組」。
3.「組字字根 V.S. 詞組」:
「組字字根」限用「半型」英數字,最多 5 個;
「詞組」可以是英數字、中文字或混合,字數不限
(字數不要太多,不然會超出候選字窗格的寬度)
「組字字根」和「詞組」中間要留一個「空格」,
一列只能定義一個詞組。
4.排越前面的詞組,會成為輸入法裡越前面的候選字。
◎擴充方式:
編輯「THCJA.txt」後存檔,
再按照上述安裝步驟 5 的方式先移除「泰倉」輸入法,
然後重新開機(不這麼做的話,可能無法更新那四個檔名以「THCJA」開頭的檔案),
最後重新執行上述安裝步驟 4、5,即可完成改造這套輸入法的程序。
◎符號輸入方式:
參見:http://terryhung.pixnet.net/blog/post/25102388
◎改版建議:
此輸入法對照表製作過程請參考:http://terryhung.pixnet.net/blog/post/24862369
此輸入法對照表建議修改的部分請參考:http://terryhung.pixnet.net/blog/post/24828383
◎檔案說明:
THCJ3.txt:對照表完整版 for「通用輸入法編輯工具」(只包含第三代倉頡拆碼方式)
THCJ5.txt:對照表完整版 for「通用輸入法編輯工具」(只包含第五代倉頡拆碼方式)
THCJC.txt:對照表完整版 for「通用輸入法編輯工具」(包含第三代及第五代倉頡拆碼方式)
THCJA.cin:對照表完整版 for「Yahoo! 奇摩輸入法」、「OpenVanilla 香草輸入法」(包含第三代及第五代倉頡拆碼方式,且經過調整)
THCJA.txt:對照表完整版 for「通用輸入法編輯工具」(包含第三代及第五代倉頡拆碼方式,且經過調整)
THCJA-Lite.cin:對照表精簡版 for「Yahoo! 奇摩輸入法」、「OpenVanilla 香草輸入法」(只支援 CJK 的 20,902 個字元)
THCJA-Lite.txt:對照表精簡版 for「通用輸入法編輯工具」(只支援 CJK 的 20,902 個字元)
註:安裝「Yahoo! 奇摩輸入法」後,請直接開啟您想要匯入的 cin 檔,即可看到詢問您是否要安裝的畫面。
匯入後,可至「Yahoo! 奇摩輸入法」設定畫面的「泛用」項下進行相關設定。
安裝「OpenVanilla」後,請直接將您想要使用的 cin 檔複製到「C:\OpenVanilla\Modules\OVIMGeneric」,
切換輸入法至「OpenVanilla」後,即可點選該 cin 檔的輸入法來使用。
terryhung 發表在 痞客邦 留言(0) 人氣(842)
有了「初次試作篇」的製作經驗後,
我對輸入法對照表的蒐集、整理,也有了更深刻的領悟,
因此,我想整理出一系列像樣一點的「中文輸入法對照表」,
並希望能對各位有所幫助!
本文將介紹我製作「泰瑞倉頡輸入法對照表」的過程,
使用大易、行列輸入法的網友們,
如果有興趣的話,可以參考我的方法試做看看,
只要用 Google 搜尋「大易 cin」、「行列 cin」的關鍵字,
就能找到一些可以使用的對照表檔案,
希望您也能做出一個可以滿足外字需求或達到理想目標的對照表。
terryhung 發表在 痞客邦 留言(0) 人氣(877)

雖然「亂倉打鳥」輸入法對符號的支援已經達到令我滿意的程度,
但它的懶人詞庫說穿了對我一點用處也沒有!
藉由編輯它的對照表的過程,
我發現它其實並沒有支援 CJK 擴展 B 區的字元,
(擴展 A 區的可能也沒有支援;以下為方便解說,姑且把這些字稱作「罕見字」)
而且老實說,它的符號很多都變成了重碼字,有時反而降低輸入的速度,
於是我有了打造一套適合自己的「改良式倉頡輸入法」的計畫。
terryhung 發表在 痞客邦 留言(0) 人氣(890)
我的第一次網購經驗給了酷必得,
當時酷必得為力傳公司的主要獲利來源,
因為它是國內最早做網購的網站之一,
所以當時做得還蠻有聲有色的,
甚至引來 eBay 收購它。
terryhung 發表在 痞客邦 留言(0) 人氣(12,537)
前幾天在 Google 首頁的右上角看到安裝 Google 瀏覽器的提示,
心血來潮就按下去並跟著指示一步步的安裝完成,
然後立即到我的網誌的「李敖《雞巴考》」這篇文章
去觀察 CJK Ext-B 字元在 Google 瀏覽器(Google Chrome)的顯示情形,
結果是:這類的字元會「顯示為空白」!
terryhung 發表在 痞客邦 留言(0) 人氣(870)
以下針對 Big5、CJK、CJK Ext-A/B/C/D/E 字元集作成簡單的整理,
有幾點先說明如下:
一、Big5 碼普遍被認為包含 13,053 個字(5,401 個常用字 + 7,652 個次常用字),
但計入「兙、兛、兞、兝、兡、兣、嗧、瓩、糎」9 個度量衡單位用字(Big5 十進位碼由 41561 至 41569),
及「碁、銹、裏、墻、恒、粧、嫺」 7 個倚天造字區的漢字(Big5 十進位碼由 63958 至 63964),
加上「卄」這 1 個被 Big5 編入符號區的漢字(Big5 十進位碼為 41677),
再減去重複收錄 2 次的「兀」(42081)、「兀」(51530)及「嗀」(56529)、「嗀」(56828) 後(後者不算),
應為 13,068 個字(13,053+9+7+1-2=13,068),
這 13,068 個字被編入 CJK 字元集(Unicode 十進位碼由 19968 至 40869 此一範圍)。
二、Big5 碼主要分為 2 個部分:
常用漢字區:Big5 十進位碼(有部分碼位被保留)由 42048(一) 至 50814(籲),共 5,401 個字。
次常用漢字區:Big5 十進位碼(有部分碼位被保留)由 51520(乂) 至 63957(龘),共 7,652 個字。
三、Big5 各區排序方式皆為先按筆劃排序,同筆劃再按部首排序。
Unicode 各區排序方式則為先按部首排序,同部首再按筆劃排序。
四、CJK 應再包含 12 個位於「相容表意文字區」中但實則獨一的漢字,它們分別是:
U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、
U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、
U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩),
這 12 個字並不在 4E00 - 9FA5(Unicode 十進位碼由 19968 至 40869 此一範圍)的碼位,
所以常常被忽略(微軟倉頡無法打出這些字,泰瑞倉頡已補上這些字的字根)。
這 12 個字被放到兼容區並不是因為和其他字同形或為異體,
而是因為它們只收錄在廠商用字中,但未收錄在官方標準(C-, T-, J-, K-Source)中。
他們有獨立的形、音、義,即「獨一」(Unique),參見:Unicode 5.0,第 412 頁。
terryhung 發表在 痞客邦 留言(0) 人氣(13,215)
我發現在痞客邦發表的新文章,
在剛開始的 24 小時之內,
如果用 Google 去搜尋這篇文章的關鍵字,
這篇文章的連結會很容易出現在搜尋結果的前 5 頁。
但是,如果這篇文章的關鍵字是較多人使用的詞組,
隨著時間的經過,在 Google 搜尋結果的排名也會越排越後面。
terryhung 發表在 痞客邦 留言(0) 人氣(2)