近來,我發現在我所發表的中文輸入法文章當中,有些名稱使用不當,
所以利用這篇文章來解釋或定義一些名詞,
雖然別人用這些名詞來表達的概念,可能和我解釋的意義不盡相同,
但為方便讀者有更精確的認知,
因此在我發表的中文輸入法文章裡,我會儘可能使用本篇文章所定義的名詞。
另外,為了讓網友使用 Google 搜尋時,能用不同的關鍵字來找到我所寫的文章,
所以我在各篇文章裡,除了使用正式的名詞外,也會夾帶一些別名。
◎字元:
文字、數字與符號的統稱。它是獨立的個體,全型、半型、英文字母、漢字、日文、韓文…皆可。
◎詞組:
它可以指「單數的字元」(如:「中」),也可以指「複數的字元組合」(如:「中華民國」)。
◎中文字元:
為「字元」裡的一個子集合,包含使用中文場合時會用到的漢字和符號。
◎漢字:
為「中文字元」的一個子集合,每一個漢字都是獨字獨音的表意文字。
中文字元裡常用的全型符號,不算是漢字。
Big5 將「瓩」這類的字元視為符號,因為它雖是「獨字」,但不符合「獨音」的規則,
因為讀這個字時會用到「千瓦」兩個音,所以它的碼位不在「常用字」與「次常用字」範圍裡;
但在 Unicode 裡,它被視為漢字,因為人們其實可以賦予它具有「獨音」的性質,
所以它的碼位被放在「中日韓統一表意文字(CJK)」的範圍裡。
由此可見,漢字的定義有些模糊,
比如:「不一樣」(「丕羕」,讀作「ㄅㄧㄤˋ」)、「招財進寶」複合後也是「獨字」,
目前它們還沒被列入 Unicode 裡(這種複合字現在只能用造字的方式提供給電腦使用),
但如果有一天,CJK 的某擴充區裡出現這些複合字,它們就會被視為漢字。
◎中文輸入法:
在華人社會裡被簡稱為「輸入法」,
如果專指某一特定的輸入法時,有時只稱其名稱,如:「倉頡」、「嘸蝦米」…
電腦鍵盤的鍵數有限,只能直接輸入英文字母、阿拉伯數字和一些符號
(這三者稱為「詞鍵」,有別於 F1~F12 等「功能鍵」和 Ctrl、Alt 等「控制鍵」),
如果不透過一些特定的軟體(程式)的話,電腦鍵盤並不能用來直接輸入中文字元;
這種特定的軟體被稱為「中文輸入法軟體」,
每套輸入法軟體的背後都有其理論依據,
這些理論稱為「中文輸入法」,也就是輸入中文字元的方法。
如果沒有特別指定的話,看到「某中文輸入法」這個名詞時,
想到的應該是「該中文輸入法的各種軟體」(包含對照表)和其「背後的理論」,
避免只想到某特定作業系統下的特定軟體,
這樣才能比較客觀的認識中文輸入法的世界。
◎字根:
它是各種中文輸入法用來構成「詞組」的最小單位,
它可以直接使用電腦鍵盤上的英文字母(如:嘸蝦米輸入法的字根),
也可以另外印刷在鍵盤上(如:注音輸入法、倉頡輸入法、大易輸入法的字根),
或需要使用者自行記憶在腦海裡,
它與電腦鍵盤上的「詞鍵」只能有一對一的對應關係
(「詞鍵」不一定是單一按鍵,比如輸入「:」需要用「Shift」鍵搭配「;」鍵,
只是一般中文輸入法的字根不會對應到需要搭配「Shift」使用的那些「詞鍵」,
而且也不會去區分英文字母的大小寫)。
字根有時又被為中文輸入法的「字母」、「碼」(單數)。
(如:「倉頡字母」為「日」、「月」…「難」、「重」,
「注音字母」為「ㄅ」、「ㄆ」…「ㄥ」、「ㄦ」)
◎組字字根:
它是一條「詞組」對應的「字根組合」。
它有時又被稱為電腦的「外碼」或中文輸入法的「碼」(單數或複數皆可)、「編碼」,
比如:「生」的〝倉頡碼〞為「竹手一」;「命」的〝嘸蝦米碼〞為「AOP」。
它可以是「單數的字根」,也可以是「複數的字根組合」,
一條「組字字根」可能對應到幾條不同的「詞組」
(如:注音輸入法的「ㄕㄠˋ」這一條組字字根對應到「少」、「哨」這兩條詞組…);
一條「詞組」也可能被幾條不同的「組字字根」對應
(如:「少」在注音輸入法裡被「ㄕㄠˋ」、「ㄕㄠˇ」對應)。
◎輔助字根:
簡稱「輔根」,有時又稱為「輔助字形」,廣義而言,可包含「簡根」(簡速字根)。
它是字形輸入法裡字根的延伸,一個字根可以對應許多輔根。
它們有些是字根衍生出來的變化形,
有些則與字根沒有形、音、義上的關係,純粹只是共用一個字根而已。
字根本身也可以視為是輔根的一部份,字形輸入法在拆字時都是著眼於輔根。
◎字根表:
將字根、輔根、簡根列於一張表上,方面使用者學習、背誦、查閱的表格。
◎拆字:
字形輸入法的術語,又稱為「取碼」、「拆碼」。
人類運用輸入法理論將「詞組」〝拆解〞成「組字字根」,
電腦則運用輸入法軟體將「組字字根」〝組合〞成「詞組」。
「詞組」不一定是單一字元,例如「中華民國」這條詞組就包含了 4 個字元,
在亂倉打鳥輸入法裡,它可以用「中廿口田」這條〝組字字根〞來輸入
(也就是取每個漢字個別拆字時的第一個倉頡字根來構成這條〝組字字根〞)。
「詞組」也不一定是漢字,例如「☆」這條詞組只是單一符號,
在泰瑞倉頡輸入法裡,可以用「尸廿日口」(star)這條〝組字字根〞來輸入。
但大多數情況下,「詞組」通常是單一漢字,
人類觀察詞組的字形結構後,運用輸入法理論,將其拆解成組字字根的過程,稱為「拆字」;
電腦接收到組字字根後,運用輸入法軟體,將其組合成詞組的過程,稱為「組字」。
◎出字:
或稱「上字」、「上屏」(大陸人將「螢幕」稱作「屏幕」,因此「顯示到屏幕上」,即為「上屏」)。
使用者輸入組字字根,加上「組字鍵」(通常為空白鍵)後,
頂多再輸入候選字的選字按鍵,就能將欲輸入的「詞組」顯示到螢幕上的游標位置,
螢幕成功顯示該條「詞組」的情形,就稱為「上字」。
(註:在 DOS 裡稱為「游標」,在 Windows 裡通常稱為「插入點」)
◎字首、字身:
使用倉頡輸入法取碼時,需先將單一漢字的字形分為「字首」和「字身」;
一體成型的字(如「未」)沒有字首和字身之分,可視為只有字身,
由上而下儘可能取全部的碼,但最長取五碼。
左右分離、上下分離、內外分離的字,
左偏旁、上偏旁、外偏旁視為「字首」,最多取「首、尾」兩碼;
右偏旁、下偏旁、內偏旁視為「字身」,最多取「首、次、尾」三碼。
使用嘸蝦米輸入法取碼時,則依書寫順序依序取「首、次、三、尾」四碼,不分字首和字身。
◎拼音輸入法:
依據漢字的「讀音」來定義「組字字根」的輸入法,
在台灣,漢字讀音以「注音符號」表示;
在大陸,漢字讀音以「漢語拼音」表示。
「漢語拼音」用的字母是英文字母,但有時又被說成拉丁字母、羅馬字母。
◎字形輸入法:
依據漢字的「字形」來定義「組字字根」的輸入法,
在台灣,較著名的有倉頡輸入法、行列輸入法、大易輸入法、嘸蝦米輸入法。
在大陸,較著名的有五筆輸入法。
◎輸入法軟體(程式):
依據中文輸入法的理論而開發出來的軟體,它是一種獨立運行的程式。
因為使用 Windows 的人口眾多,因此如果沒有特別指稱,多半指其內建的輸入法軟體。
有時連「軟體」(程式)、「輸入法」這些字眼都被省略,
如果您問某個人使用什麼輸入法,他回答「大易」的話,
其實他應該是指「Windows 內建的大易輸入法軟體」,
但大易輸入法軟體有很多種,不一定要用 Windows 內建的。
又因為使用嘸蝦米輸入法的人,多半都使用行易有限公司發行的軟體,
所以如果您問某個人使用什麼輸入法,他回答「嘸蝦米」的話,
其實他應該是指「行易有限公司發行的嘸蝦米輸入法軟體」,
但嘸蝦米輸入法軟體有很多種,不一定要用行易的。
注音和倉頡輸入法比較不會有這種語句上的模糊,
因為不同的輸入法軟體會取不同的名稱以資識別,
無論是自然輸入法、輕鬆輸入法、新酷音,
還是 Windows 注音(微軟注音)、Windows 新注音(微軟新注音)…
其運用的理論基礎都是「注音輸入法」,只是用軟體來實現輸入字元的作法上有些許不同而已。
◎輸入法框架軟體:
又稱「輸入法平台」,是一種可以用同一支程式呼叫不同輸入法對照表來加以執行的軟體,
如「Yahoo! 奇摩輸入法」、「OpenVanilla 香草輸入法」、「GCIN」、「OXIM」、「小小輸入法」…
◎輸入法生成軟體:
可以用同一支程式,對個別的「輸入法對照表」生成個別的「輸入法軟體」的程式,
如:Windows 裡的「通用輸入法編輯工具」。
◎對照表:
常被稱為「碼表」,它是一種純文字檔,內容主要為一行行的「組字字根」與「詞組」的對照。
它可以被用來產生輸入法軟體,也可以被用來和「輸入法框架軟體」搭配使用。
在 Linux 系統中,它的副檔名多半被取為「cin」,並用來和「輸入法框架軟體」搭配使用,
所以有時也被稱為「CIN 檔」、「輸入法表格」,
它是一種未加密的檔案,可以用文字編輯軟體開啟及編輯。
◎參考檔:
此一名詞多半用於使用嘸蝦米輸入法的情況。
嘸蝦米輸入法對照表(有其特定格式和限制)經過轉換後的檔案,稱為「參考檔」,
它是一種加密後的檔案,除非經過逆向轉換,否則不能用文字編輯軟體開啟及編輯。
◎重碼字:
當一條「組字字根」對應到兩條或兩條以上不同的「詞組」時,
這些「詞組」會發生「重碼」的現象,也就是這些「詞組」共同指向同一條「組字字根」。
因為早期的輸入法軟體處理「詞組」時,只處理單一漢字,
所以在輸入時,會發生「重碼」情形的漢字被稱為「重碼字」,
比如:「未」和「宋」的倉頡碼(組字字根)同樣為「十木」,
「未」和「宋」就被稱為(在「十木」這條組字字根下的)「重碼字」。
「重碼字」會先出現在輸入法軟體的「候選字」窗格裡,
等待使用者輸入對應的選字按鍵(通常為 1 至 9 的數字鍵)後,才會「出字」;
非「重碼字」的字元則會直接「出字」。
因為同音的漢字太多,因此拼音輸入法免不了「重碼字」的問題,
拼音輸入法只能建立規則、計算頻率來讓輸入法軟體自動幫使用者選字(稱為「智慧選字」、「自動學習」)。