筆者在 2010 年 9 月曾經發表過【全字庫屬性資料表格整理方法(一)─事前準備篇】一文,
當時「CNS11643 中文標準交換碼全字庫」(簡稱全字庫)由行政院主計處負責統籌,
申請其字型、屬性(注音、倉頡、筆劃等輸入法)需要以發函的方式向行政院主計處取得授權及光碟。
隨著政府組織改造,全字庫的業務交由國家發展委員會負責運作,
而國發會依「政府資料開放授權條款」於 2015 年 2 月 1 日將發文取得授權及光碟的方式,
改成讓使用者直接於其網站上下載,此舉使得取得全字庫的字型及屬性更方便、更容易了!
國發會將全字庫的字型、屬性公告在下列網址,任何人皆可下載:
https://data.gov.tw/dataset/5961

筆者下載了民國 108 年 4 月 18 日更新的「全字庫資料集」(ZIP 檔),
以筆者所撰【Unicode 各字元集代表性漢字】一文的 CJK Ext-C/D/E 代表字,
開啟該 ZIP 檔的「Open_Data\Properties\CNS_phonetic.txt」進行搜尋,
(注意!需先開啟「Open_Data\MapingTables\Unicode\CNS2UNICODE_Unicode 2.txt」,
將代表字的 Unicode 碼轉換為全字庫代碼,才能到「CNS_phonetic.txt」搜尋)
結果發現「全字庫注音」應已支援 CJK Ext-C/D 字元集了,但還不支援 CJK Ext-E 字元集。

筆者目前發表於【新版「泰瑞系列中文輸入法對照表」簡介】一文的泰瑞注音碼表,
目前只支援 CJK(涵蓋 Big5)、CJK Ext-A/B 字元集,
等筆者有空再來更新至支援 CJK Ext-C/D 字元集,
如果讀者迫不及待想先更新,最新的「全字庫的屬性資料表」應與筆者 2010 年時取得的格式相去不遠,
讀者可以參考筆者所撰「全字庫屬性資料表格整理方法」系列 4 篇文章自行整理,文章連結如下:
全字庫屬性資料表格整理方法(一)─事前準備篇
全字庫屬性資料表格整理方法(二)─整理過程篇
全字庫屬性資料表格整理方法(三)─改善排序篇
全字庫屬性資料表格整理方法(四)─檢查錯誤篇

arrow
arrow
    全站熱搜

    terryhung 發表在 痞客邦 留言(0) 人氣()