首页 理论教育 五笔字型输入法-简单、高效的汉字输入方式

五笔字型输入法-简单、高效的汉字输入方式

时间:2023-10-19 理论教育 版权反馈
【摘要】:五笔字型是由河南省中文信息研究会王永民等人研究发明的一种汉字输入法,因其输入简单,重码率低的特点,深受用户欢迎。下面,分别介绍一下汉字的结构、五笔字型的拆分规则和五笔编码输入方法。图1-18五笔字型键盘字根总图在同一个键位上的几个基本字根中,选择一个具有代表性的字根,称为键名。(四)五笔字型的编码规则五笔字型输入法一般击四键完成一个汉字的输入,编码规则如图1-19所示。

五笔字型输入法-简单、高效的汉字输入方式

五笔字型是由河南省中文信息研究会王永民等人研究发明的一种汉字输入法,因其输入简单,重码率低的特点,深受用户欢迎。五笔字形码是一种形码,它按照汉字的字形(笔画、部首)进行编码,采用字形分解、字根拼形输入方案,根据汉字的组字特点把汉字拆分成若干基本字根,用字根输入,然后由计算机拼成汉字。下面,分别介绍一下汉字的结构、五笔字型的拆分规则和五笔编码输入方法。

(一)对汉字的认识

1.汉字的三个层次

汉字可以划分为三个层次:即笔画、字根、单字,由若干笔画复合连接交叉形成相对不变的结构组成字根;再将字根按一定的位置关系拼合起来构成汉字。

2.汉字的五种笔划

在书写汉字时,不间断地一次连续写成的一个线条段叫做汉字的笔画,在五笔字型方法中,把汉字的笔画只归结为横、竖、撇、捺(点)、折五种。把“点”归结为“捺”类,是因为两者运笔方向基本一致;把挑(提)归结于“横”类;除竖能代替左钩以外,其他带转折的笔画都归结为“折”类。为了便于记忆和应用,根据它们使用概率的高低,依次用1、2、3、4、5作为它们的代号,如表1-8所示。

表1-8 汉字五种笔画

五种笔划组成字根时,笔画之间的关系可分为以下四种:

1)单:即五种笔画自身。

2)散:组成字根的笔画之间有着一定的间距,如:三、八、心等。

3)连:组成字根的笔画之间是相连接的,可以是单笔与单笔相连,也可以是笔笔相连,如:厂、人、尸、弓等。

4)交:组成字根的笔画是彼此相互交叉的。如:十、力、水、车等。

3.汉字的三种类型

由若干笔画交叉连接而形成的相对不变的结构叫字根。根据构成汉字的字根之间的位置关系,可以把成千上万的汉字分成三种类型:上下型、左右型、杂合型,前两种称为合体字,两部分合并在一起的字称为双合字,三部分合并在一起的字称为三合字。根据汉字的字型,也可用1~3给出汉字字型的代号,如表1-9所示:

表1-9 汉字字型代号

因为在汉字编取代码时,由于某些汉字字根较少,不好拆分笔画,所以有必要增加一些字形信息,而且五笔输入法中最多用四个字根就可以把所需的汉字输出来,所以对于由四个部分以上组成或者可以分作四个部分的汉字,其字根信息已足够,则不必考虑字形信息。这就是五笔中要取的“一、二、三、末”四个字根,且不足四码要追加末笔识别码的原因。

4.汉字的四种结构

一切汉字都是由基本字根拼合而成,基本字根组成汉字时,按照它们之间的位置关系可分为四种类型。

(1)单体结构。基本字根本身就是单独一个汉字,如:八、用、手、车等。单体结构的汉字称为成字字根。

(2)离散结构。构成汉字的基本字根之间有一定距离。如:汉——氵 又,字——宀 子。

(3)连笔结构。指一个基本字根连一个单笔画。例:自——丿 目,千——丿 十。

规定:一个基本字根之前或之后的孤立点,一律论作与基本字根相连。

(4)交叉结构。指几个基本字根交叉套迭后构成的汉字。例:夫——二 人,夷——一 弓人。

(二)字根在键盘上的分布规律

“五笔字型”编码方案中对选出的130多种基本字根,按照其起笔笔画,分成五个区。以横起笔的为第一区,以竖起笔的为第二区,以撇起笔的为第三区,以捺(点)起笔的为第四区,以折起笔的为第五区,每一区内的基本字根又分成五个位置,也以1、2、3、4、5表示。这样130多个基本字根就被分成了25类,每类平均5~6个基本字根,这25类基本字根安排在除Z键以外的A~Y的25个英文字母键上,如图1-17所示。

图1-17 五笔字型基本字根排列

一区:横起笔类,27种,分“王土大木工”五个位,即GFDSA。

二区:竖起笔类,23种,分“目日口田山”五个位,即HJKLM。

三区:撇起笔类,29种,分“禾白月人金”五个位,即TREWQ。

四区:捺起笔类,23种,分“言立水火之”五个位,即YUIOP。

五区:折起笔类,28种,分“已子女又纟”五个位,即NBVCX。

五笔字型字根总表以及五笔字型键盘字根排列如图1~18所示。

图1-18 五笔字型键盘字根总图

在同一个键位上的几个基本字根中,选择一个具有代表性的字根,称为键名。图中键位左上角的字根就是键名。

(三)字根助记词

为了便于字根的记忆,特为每一区的字根编写了一首“助记词”。

1(横)区字根键位排列:

11G 王旁青头戋(兼)五一(“兼”与“戋”同音),

12F 土士二干十寸雨,

13D 大犬三羊古石厂(“羊”指羊字底),

14S 木丁西,

15A 工戈草头右框七(“右框”即“匚”)。

2(竖)区字根键位排列:

21H 目具上止卜虎皮(“具上”指具字的上部),

22J 日早两竖与虫依,

23K 口与川,字根稀,

24L 田甲方框四车力(“方框”即“口”),

25M 山由贝,下框几。

3(撇)区字根键位排列:

31T 禾竹一撇双人立(“双人立”即“彳”),反文条头共三一(“条头”即“夂”),

32R 白手看头三二斤(“三二”指键为“32”),

33E 月彡(衫)乃用家衣底(“家衣底”即“豕”、“”),

34W 人和八,三四里(“人”和“八”在34里边),

35Q 金勺缺点无尾鱼(指“勹、”),犬旁留叉儿一点夕,氏无七(“氏”去掉“七”)。

4(捺)区字根键排列:

41Y 言文方广在四一,高头一捺谁人去,

42U 立辛两点六门疒,

43I 水旁兴头小倒立(“氵”、“”),

44O 火业头,四点米(“火”、“业”、“灬”),

45P 之宝盖,摘礻(示)(衣)。

5(折)区字根键位排列:

51N 已半巳满不出己,左框折尸心和羽,

52B 子耳了也框向上(“框向上”即“凵”),

53V 女刀九臼山朝西(“山朝西”即“彐”),

54C 又巴马,丢矢矣(“矣”去“矢”为“厶”),

55X 慈母无心弓和匕,幼无力(“幼”去“力”为“幺”)。

(四)五笔字型的编码规则

五笔字型输入法一般击四键完成一个汉字的输入,编码规则如图1-19所示。

图1-19 编码规则

由图1-17所示,编码规则分成两大类:

1.基本字根编码

这类汉字直接标在字根键盘上,其中包括键名汉字和一般成字字根汉字两种。键名汉字指:王、土、大、木、工、目、日、口、田、山、言、立、水、火、之、禾、白、月、人、金、子、女、又、纟共25个。它们采用把该键连敲四次的方法输入。

一般成字字根的汉字输入采用先敲字根所在键一次(称为挂号),然后再敲该字字根的第一、第二以及最末一个单笔按键。例如:石,第一键为“石”字根所在的D,二键为首笔“横”G键,第三键为次笔“撇”T键,第四键为末笔“横”G键。

但对于用单笔画构成的字,如“一”、“丨”、“丿”、“丶”、“乙”等,第一、二键是相同的,规定后面增加两个英文LL键。这样“一”、“丨”、“丿”、“、”、“乙”等的单独编码为:

一:GGLL  丨:HHLL  丿:TTLL  丶:YYLL  乙:NNLL

2.复合汉字编码

凡是由基本字根(包括笔型字根)组合而成的汉字,都必须拆分成基本字根的一维数列,然后再依次键入计算机。例如:“新”要拆分成:“立”、“木”、“斤”;“灭”要拆分成:“一”、“火”;“未”拆分成:“二”、“小”等。拆分要有一定的规则,才能最大限度地保持其唯一性。

(1)拆分的基本规则。

1)按书写顺序。例如:“新”字要拆分成:“立”、“木”、“斤”,而不能拆分成“立”、“斤”、“木”;“想”拆分成“木”、“目”、“心”,而不是“木”、“心”、“目”等,以保证字根序列的顺序性。

2)能散不连,能连不交。例如:“于”字拆分为“一”、“十”,而不能拆分为“二”、“丨”。因为后者两个字根之间的关系为“交”而前者是“散”。拆分时遵守“散”比“连”优先,“连”比“交”优先的原则。

3)取大优先。保证在书写顺序下拆分成尽可能大的基本字根,使字根数目最少。所谓最大字根是指如果增加一个笔画,则不成其基本字根的字根。例如:“果”拆分为“日”、“木”;而不拆分为“旦”、“小”。

4)兼顾直观。例如:“自”字拆分成:“丿”、“目”;而不拆分为:“白”、“一”等,后者欠直观。

(2)复合字编码规则。按上述原则拆分以后,按字根的多少分别处理:

1)刚好四字根,依次取该四个字根的码输入。例如:“到”字拆分成“一”、“厶”、“土”、“刂”,则其编码为“GCFJ”。

2)超过四个字根,则取一、二、三、末四个字根的编码输入。例如:“酸”字取“西”、“一”、“厶”、“文”编码为“SGCT”。

3)不足四个字根,加上一个末笔字型交叉识别码,若仍不足四码,则加一空格键。

(3)末笔字型交叉识别码。对于不足四码的汉字,例如:“汉”字拆分成“氵”、“又”只有“IC”两个码,因此要增加一个所谓末笔字型交叉识别码“Y”。

我们举个例子来说明它的必需性。例如:“汀”字拆分成“氵”、“丁”,编码也为“IS”,“沐”字拆分成“氵”、“木”,编码也为“IS”;“洒”字拆分成“氵”、“西”编码也为“IS”。这是因为“木”、“丁”、“西”三个字根都是在S键上。若就这样输入,计算机无法区分它们。为了进一步区分这些字,五笔字型编码输入法中引入一个末笔字型交叉识别码,它是由字的末笔笔划和字型信息共同构成的。

末笔笔划只有五种,字型信息只有三类,因此末笔字型交叉识别码只有15种,如表1-10所示。(www.xing528.com)

表1-10 末笔字型交叉识别码表

从表中可见,“汉”字的交叉识别码为“Y”,“字”字的交叉识虽码为“F”,“沐、汀、洒”的交叉识别码分别为“Y”、“H”、“G”。如果字根编码和末笔交叉识别码都一样,这些汉字称重码字。对重码字只有进行选择操作,才能获得需要的汉字。

(五)汉字的基本输入法

一张“字根总表”,把全部汉字划分成了两大部分。总表里有的,是专门用来组成总表以外汉字用的,称为“键面字”或“成字字根”;总表里没有的,全部是由字根组合而成的,称为“键外字”或“复合字”。

1.“键面字”输入法

(1)键名字输入法。五笔字型编码方案A~Y共25个键位中的每一个键位,设置一个中文键名,即字根表中每个键上的第一个字根,其字根特征是组字频率高,而形体上又有一定的代表性,除“纟”外,它们本身就是一个汉字。输入时只要将它们所在键连按四下即可。例:王——按四下G键;目——按四下H键;禾——按四下T键;言——按四下Y键;已——按四下N键。

(2)成字字根输入法。字根总表之中,键名以外,自身也是汉字的字根谓之“成字字根”,简称“成字根”。除键名外,成字根一共有97个(其中包括相当于汉字的“氵”、“亻”“勹”、“刂”等)。成字字根输入时,先打一下它所在的键(称为“报户口”),再根据“字根拆成单笔画”的原则,按它的第一个单笔画、第二个单笔画及其最后一个单笔画,不足四键时,加打一次空格键。

1)单笔字画输入。“一”、“丨”、“丿”、“丶”、“乙”五种单笔画,在国家标准中都是作为汉字来对待的。在“五笔字型”中,照理说它们应当按照“成字根”的方法输入,但除“一”之外,其他几个都不常用,按“成字根”的打法,它们的编码只有2码,这么简短的“码”用于如此不常用的“字”,真是太可惜了!于是,人为地在其正常码的后边,加两个“L”作为五个单笔画的编码,将其简短的编码让位给更常用的字。

例:一——GGLL,丶——YYLL,丨——HHLL,乙——NNLL,丿——TTLL

2)高频字。从11到55共25个键位代码,根据每一键位上的字根形态特征,安排一个最为常用的汉字,这一类字只要按一下加打空格键即可输入。这类汉字称为高频字,共计25个。它们分别为:

一11(G)地12(F)在13(D)要14(S)工15(A)

上21(H)是22(J)中23(K)国24(L)目25(M)

和31(T)的32(R)有33(E)人34(W)我35(Q)

主41(Y)产42(U)不43(I)为44(O)这45(P)

民51(N)了52(B)发53(V)以54(C)经55(X)

2.“键外字”输入法

凡是“字根总表”上没有的汉字,即“键外字”,都可以认为是由表内的字根拼合而成的,故称之为“合体字”。按照前述汉字分解的总原则将所有“合体字”拆成若干个字根。

(1)合体字的拆分原则。

1)书写顺序。拆分“合体字”时,一定要按照正确的书写顺序进行。

例:“新”只能拆成“立”、“木”、“斤”,不能拆成“立”、“斤”、“木”;“中”只能拆成“口”、“丨”,不能拆成“丨”、“口”;“夷”只能拆成“一”、“弓”、“人”,不能拆成“大”、“弓”。

2)取大优先。“取大优先”,也叫做“优先取大”。按书写顺序拆分汉字时,应以“再添一个笔画便不能成其为字根”为限,每次都拆取一个“尽可能大”的,即尽可能笔画多的字根。

例:“世”只能拆成“廿”、“乙”,不能拆成“一”、“凵”“乙”;“制”只能拆成“”、“冂”、“丨”、“刂”,不能拆成“丨”、“一”、“冂”、“丨”、“刂”。

3)兼顾直观。在拆分汉字时,为了照顾汉字字根的完整性,有时不得不暂且牺牲一下“书写顺序”和“取大优先”的原则,形成个别例外的情况。

例1:“国”按“书写顺序”应拆成“冂”、“王”、“丶”、“一”,但这样便破坏了汉字构造的直观性,故只好违背“书写顺序”,拆作“口”、“王”、“丶”。

例2:“自”按“取大优先”应拆成“亻”、“乙”、“三”,但这样拆,不仅不直观,而且也有悖于“自”字的字源,故只能拆作“丿”、“目”,这叫做“兼顾直观”。

4)能连不交。请看以下拆分实例:

于:一 十(二者是相连的)二 丨(二者是相交的)

丑:乙 土(二者是相连的)刀 二(二者是相交的)

当一个字既可拆成相连的几个部分,也可拆成相交的几个部分时,我们认为“相连”的拆法是正确的。因为一般来说,“连”比“交”更为“直观”。

5)能散不连。

a)笔画和字根之间、字根与字根之间的关系,可以分为“散”、“连”和“交”的三种关系。如:“倡”,三个字根之间是“散”的关系;自,首笔“丿”与“目”之间是“连”的关系;夷,“一”、“弓”与“人”是“交”的关系。

b)字根之间的关系,决定了汉字的字型(上下、左右、杂合)。几个字根都“交”“连”在一起的,如“夷”、“丙”等,便肯定是“杂合型”,属于“3”型字,不会有争议。而散根结构必定是“1”型或“2”型字。

值得注意的是,有时候一个汉字被拆成的几个部分都是复笔字根(不是单笔画),它们之间的关系,在“散”和“连”之间模棱两可。如“占”字,“卜”、“口”两者按“连”处理,便是杂合型(3型),两者按“散”处理,便是上下型(2型正确);再如“严”字,“一”、“厂”后两者按“连”处理,便是杂合型(3型),后两者按“散”处理,便是上下型(2型正确)。当遇到这种既能“散”,又能“连”的情况时,我们规定:只要不是单笔画,一律按“能散不连”判别之。因此,以上两例中的“占”和“严”,都被认为是“上下型”字(2型)。

(2)“多根字”的取码规则。所谓“多根字”,是指按照规定拆分之后,总数多于四个字根的字。这种字,不管拆出几个字根,我们只按顺序取其第一、二、三及最末一个字根,俗称“一二三末”,共取四个码。如:“戆”,“立”、“早”、“夂”、“心”,42、22、31、51(UJTN)

(3)“四根字”的取码规则。“四根字”是指刚好由四个字根构成的字,其取码方法是依照书写顺序把四个字根取完。如:“照”,“日”“刀”“口”“灬”,22、53、23、44(JVKO);“低”,“亻”、“匚”、“七”、“丶”,34、35、15、41(WQAY)。

(4)不足四根字的取码规则。如果将一个汉字拆分成字根时,拆出的字根不足四个,则字根键入完后,补打“末笔字型交叉识别码”,简称“识别码”。如果仍不足四码,则加空格键结束。

1)“识别码”的组成。它是由“末笔”代号加“字型”代号而构成的一个附加码。

a)“1”型(左右型)字:字根打完之后,补打1个末笔画即等同于加了“识别码”。

例:“沐”,“氵”、“木”、“、”(“丶”为末笔,补1个“丶”);

“汀”,“氵”、“丁”、“丨”(“丨”为末笔,补1个“丨”);

“洒”,“氵”、“西”、“一”(“一”为末笔,补1个“一”)。

b)“2”型(上下型)字:字根打完之后,补打由2个末笔画复合构成的“字根”即等同于加了“识别码”。

例:华,“亻”、“匕”、“十”(末笔为“丨”,2型,补打“刂”作为“识别码”);

字,“宀”、“子”、“二”(末笔为“一”,2型,补打“二”作为“识别码”);

参,“厶”、“大”、“彡”(末笔为“丿”,2型,补打“亻”作为“识别码”)。

c)“3”型(杂合型)字:字根打完之后,补打由3个末笔画复合而成的“字根”即等同于加了“识别码”。

例:同,“冂”“一”“口”“三”(末笔为“一”,3型,补打“三”作为“识别码”);

串,“口”“口”(末笔为“丨”,3型,补打“川”作为“识别码”);

国,“口”“王”丶“氵”(末笔为“丶”,3型,补打“氵”作为“识别码”)。

至于为什么这些“笔画”可以起到“识别码”的作用,只要仔细研究一下区位号的设计与“识别码”的定义便会恍然大悟。

2)关于“末笔”的几项说明。

a)关于“力”、“刀”、“九”、“匕”。鉴于这些字根的笔顺常常因人而异,“五笔字型”中特别规定,当它们参加“识别”时,一律以其“伸”得最长的“折”笔作为末笔。

如:男,“田”、“力”“了”(末笔为“乙”,2型);

花,“艹”、“亻”、“匕”、“了”(末笔为“乙”,2型)。

b)带“框框”的“国”、“团”与带走之的“进”、“远”、“延”等,因为是一个部分被另一个部分包围,我们规定:视被包围部分的“末笔”为“末笔”。

如:进,“二”、“刂”、“辶”、“川”(末笔“丨”3型,加“川”作为“识别码”);

远,“二”、“儿”、“辶”、“巛”(末笔“乙”3型,加“巛”作为“识别码”);

团,“口”“十”“丿”“彡”(末笔“丿”3型,加“彡”作为“识别码”);

哉,“十”、“戈”、“口”、“三”(末笔“一”3型,加“三”作为“识别码”)。

c)“我”、“戋”、“成”等字的“末笔”,由于因人而异,故遵从“从上到下”的原则,一律规定撇“丿”为其末笔。

如:我,“丿”、“扌”、“乙”“丿”(TRNT,取一二三末,只取四码);戋,“戋”、“一”、“一”、“丿”(GGGT,成字根,先“报户口”再取一、二、末笔);成,“厂”、“乙”、“乙”、“丿”(DNNT,取一二三末,只取四码)。

d)单独点:对于“义”、“太”、“勺”等字中的“单独点”,离字根的距离很难确定,可远可近,干脆认为这种“单独点”与其附近的字根是“相连”的。既然“连”在一起,便属于杂合型(3型)。其中“义”的笔顺,还需按上述“从上到下”的原则,认为是“先点后撇”。

如:义,“丶”、“乂”、“氵”(末笔为“丶”3型,“氵”即为识别码);

太,“大”、“丶”、“氵”(末笔为“丶”3型,“氵”即为识别码);

勺,“勹”、“丶”、“氵”(末笔为“丶”3型,“氵”即为识别码)。

3.末笔字形交叉识别码

末笔字形交叉识别码:末笔代号写十位,字型代号写个位。末笔字形交叉识别码如表1-11所示。

表1-11 末笔字形交叉识别码表

例:叭——KW+(41)Y;只——KW+(42)U;吧——KC+(51)N;邑——KC+(52)B;沐——IS+(41)Y;汀——I S+(21)H;洒——I S+(11)G;杜——SF+(11)G;村——SF+(41)Y。

又例:写出以下汉字的交叉识别码:

坝(41)Y;京(42)U;均(31)T;

位(11)G;午(22)J;尹(33)E;

余(42)U;钟(21)H;艺(52)B。

4.词语输入

1982年,“五笔字型”首创了汉字的词语依形编码、字码词码体例一致、不需换档的实用化词语输入法。不管多长的词语,一律取四码。而且单字和词语可以混合输入,不用换挡或其他附加操作,谓之“字词兼容”。其取码方法为:

(1)两字词:每字取其全码的前两码组成,共四码。

如:经济,“纟”、“又”、“氵”、“文”(55 54 43 41 XCIY);

操作,“扌”、“口”、“亻”、“”(32 23 34 31 RKWT)。

(2)三字词:前两字各取一码,最后一字取两码,共四码。

如:计算机,“讠”、“竹”、“木”、“几”(4131 14 25 YTSM);

操作员,“扌”、“亻”、“口”、“贝”(32 34 23 25 RWKM)。

(3)四字词:每字各取全码的第一码。

如:科学技术,“禾”、“”、“扌”、“木”(31 43 32 14 TIRS);

汉字编码,“氵”、“宀”、“纟”、“石”(43 45 55 13 IPXD);

王码电脑,“王”、“石”、“曰”、“月”(11 13 22 33 GDJE)。

(4)多字词:取第一、第二、第三及末一个汉字的第一码,共四码。

如:电子计算机,“曰”、“子”、“讠”、“木”(22 52 41 14 JBYS);

中华人民共和国,“口”、“亻”、“人”、“口”(23343424KWWL);

美利坚合众国,“丷”、“禾”、“刂”、“口”(42312224UTJL);

五笔字型计算机汉字输入技术,“五”、“竹”、“一”、“木”(1131 11 14 GTGS)。

另外,在WINDOWS版五笔字型输入法中,系统为用户提供了15000条常用词组,除此之外,用户还可以使用系统提供的造词软件另造新词,或直接在编辑文本的过程中从屏幕上“取字造词”,所有新造的词,系统都会自动给出正确的输入外码合并入原词库统一使用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈