一、瞭解整理目的:

我們整理的目的是利用全字庫屬性(碼表)製成「組字字根 字元」格式的對照表。
全字庫屬性的電子檔,可透過公司、組織或個人名義向全字庫授權小組提出申請,
申請方式請參閱:http://www.cns11643.gov.tw/AIDB/cns_authorization_apply.do

二、界定整理範圍:

全字庫目前已經收錄的漢字、符號超過 10 萬個,
囿於字型、應用程式或作業系統的關係,
即使在可以設定多種字型的應用程式(如:Word)裡,
要將全字庫目前收錄的全部字元都正確顯示出來仍有其困難之處。
目前 Windows Vista、Windows 7 的預設環境下,
以及安裝了「新細明體字型更新套件」的 Windows XP 環境下,
較適合處理 CJK、CJK Ext-A、CJK Ext-B(中日韓統一表意文字及其擴充 A、B 區)的字元,
所以我們可以界定要處理的範圍只限於這 3 個字元集合計的 70,195 個漢字,
至於符號的部分,我們可以另外處理。
如果是在 Linux 或 Mac OS 的環境下,
只要再安裝支援 CJK Ext-C 字元集的字型,
要將處理範圍擴大到這 4 個字元集合計的 74,344 個漢字應該沒有太大的問題,
網友們可以仿效本系列的介紹文章自行整理。
本系列的介紹文章將以 2010.04.13 版本的全字庫屬性、Windows 作業環境,
以及 CJK、CJK Ext-A、CJK Ext-B 這 3 個字元集為基礎來介紹整理方法及流程。
因為注音輸入法對照表較難整理,所以在解說時會多所著墨。

三、準備整理工具:
(一)字型:
   系統字型必須支援 CJK、CJK Extension A、CJK Extension B 的字元,
   在 Windows XP/Server 2003 中可以安裝「新細明體字型更新套件」,
   在 Windows Vista/Server 2008/7(或以後版本的 Windows)則不需安裝字型。
(二)Excel 2007/2010(或更新版本的 Excel):
   Excel 2003 和舊版 Excel 的每個工作表最多只能有 65,536 列。
   Excel 2007 的每個工作表最多可以有 1,048,576 列。
   因為我們要處理的「組字字根 字元」數量會超過 70,195 個字,
   所以必須使用 Excel 2007/2010,才不會有列數上的限制。
(三)EditPlus 3(或更新版本的 EditPlus):
   字型設為「新細明體」,檔案編碼設為「Unicode」或「UTF-8」。
   若不想使用 EditPlus,可以考慮使用 Notepad2。
(四)W3C 的 Richard Ishida 提供的「Unicode code converter」:
   用它來將 Unicode 16 進位碼轉成對應的字元及 Unicode 10 進位碼。
(五)彰化一整天的blog
   主要是使用 Blog 版主製作的「批次取代」Excel 檔,以及線上工具的「比較ab資料」。

創作者介紹

泰瑞的世界

terryhung 發表在 痞客邦 PIXNET 留言(0) 人氣()