在计算机迅速发展和普及的今天,用计算机对汉字进行输入、编辑、处理已经是非常普通的事。文字处理占计算机应用很大比例,在我国,几乎所有计算机的应用者都离不开汉字输入这一操作。因此,了解计算机汉字输入技术的现状和发展趋势,选择合适输入方法对每一位计算机应用人员都是十分必要的。
1 汉字输入的三个阶段
汉字编码输入的第一阶段可追溯到1840年。当时,按照李鸿章的旨意,请丹麦人编写了一套四码电报码本,一直延用到现在。这一阶段的汉字编码主要用于电报收发,每个汉字对应四位编码,只能按单字方式输入。
第二阶段,从1978年开始。近20年来,针对计算机信息输入的数以千计的汉字编码方案相继问世,先后已有400多种编码申请了专利,形成了万"码"奔腾的格局。
这一阶段产生的汉字编码方案可分音码、形码、音形码和形音码等四大类,增加了词组、联想等功能,输入方式以词为主,大大提高了输入速度。
尽管有汉字输入方案成百上千,但能够被广大用户所接受,得到普遍推广的只有为数不多的几种。据对编码使用者的调查,其中使用者超过10%的编码有:五笔字型(51%),双拼双音(32%),全拼(24%),新全拼(15%),简拼(12%),自然码(11%)。而大多数编码方案的使用者不超过10%。拼音输入方式占80%以上,形码用户则少于20%。
第三阶段,从1995年开始,智能化输入技术取得很大进展,出现一些成果。智能化输入技术,只需将欲录入的汉字转换成汉语拼音,然后,逐字连贯地输入由拼音组成的序列,系统则会一一排除同音字的干扰,在屏幕上显示出要表达的汉语,实现整句输入。如人名和地名一经提醒,就能记忆起来,并能将用户对它的每一次纠正,都存储记忆。原来由人记忆的大部分内容都让计算机来承担,使其有学习、记忆和判断的功能。
在这期间,汉字从字、词输入,开始实现句输入,一个汉字的平均击键次数为两键左右。有人做过这样的比较,同样内容的文本,中文输入比英文输入要少击键30%左右,也就是说同样的击键速度,中文的录入速度要比英文的快。
另外,在语音输入、手写体输入等方面这些年也取得了一定的成绩,识别率也达到了相当高的水平,但目前它们还只是计算机汉字输入的一些辅助手段。从语音识别、文字识别、机器翻译、语义理解等方面的研究水平及其目前已投放市场的产品来看,都离人们所期望的目标相差甚远。
2 智能输入将成为主流
随着计算机处理速度的迅速提升和存储容量的日益增加,智能化的编码输入方式不仅被提到议事日程而且将表现出旺盛的生命力。现在走在前面的是拼音的短语或整句输入。
近几年,"智能输入"这四个字似乎成了计算机领域一个新的词汇。其代表产品有:"黑马智能输入"、"自通Autoway"、"音声In-Sun"、"微软拼音"等,形成了一股不小的势头。
拼音智能输入在计算语言学术界,又叫做"拼音流"。现在市场上的智能输入大多采用汉语拼音作为输入编码,比如"黑马智能输入"和"微软拼音输入",外部以整句为输入方式,内部以上下文相关分析为核心,较好地解决了拼音重码多的问题,特别是对文字处理中数量最多的"想打"者,整句输入似乎更符合他们写作的思维方式。
以往的拼音输入是"以词为主导"的,而新兴的"拼音智能输入"主要是以短语或整句为单位进行输入的,加长输入单位的目的主要是想利用更多的上下文信息,以消除重码。
国家语委主任许嘉璐关于汉字编码的一段话,最令人深思:"……起点要高,要避免在低层次上投入力量,比如对基于拆分汉字的键盘输入编码方案的发明、研制,我认为可以止矣……,用不了多久就可望解决的智能化汉语拼音输入方法,说不定将独霸天下,一般键盘编码输入方法将逐渐而迅速地、科学地、有说服力地被淘汰。"
国家智能计算机中心一位专家认为:中国计算机用户最缺的就是好的汉字输入方法……,现在看来,笔输入、语音输入、容错拼音流中任何一项技术的突破性进展,都会对人机界面的自然语言化产生深远的影响。
IBM中国研究中心的一位资深专家认为语音输入和拼音智能输入将成为未来的竞争者。现在,IBM的汉语识别系统已经开始发行,摩托罗拉的汉语语音识别系统在96年获得了创新技术大奖,Apple的大词汇间断语音输入也已经推出有日。
摆在拼音智能输入面前的难题是,使用者拼不准拼音,系统的一次转换准确率还需百尺竿头更进一步;而摆在语音识别面前的难题是,使用者发不准音,系统的一次转换准确率还有待提高,此外,语音识别还有一个使用环境或添置辅助设备的问题。
拼音智能输入将率先取得突破,其智能处理技术将会被其他多种需要智能处理的技术所借鉴,包括语音识别。
在黑马2.0版中,采用了"拼音自动纠错"、"短语简拼"、"智能修改"、"海量知识库"等技术,将拼音智能输入的技术水准,综合地总体地提高到了前所未有的地步。
微软拼音输入法设置了很多特性,例如自学习功能、用户自造词功能,经过很短时间与用户的交互,微软拼音输入法会适应用户的专业术语和句法习惯,这样,就越来越容易一次输入语句成功,从而大大提高了输入效率。微软拼音输入法还支持南方模糊音输入、不完整输入等许多丰富的特性,以满足不同需求的用户。
拼音已经成为事实上的普及输入法;中小学计算机教育需要与拼音教学相配套的拼音输入软件;自动纠错和容错技术将使不同口音的人更容易使用拼音智能输入方法;上下文相关语法语义分析已经解决了绝大部分拼音的重码问题;短语或整句输入方式流畅且输入速度得到了实际提高。
但是,由于我们国家人口众多、方言复杂,字量很大,仅靠拼音输入显然是很不够的,还需要一些形码编码作为补充。
无论是音码还是形码,最终都要满足这样三个要求,才可能有市场,才可能发展。一是符合相关规范;二是易学(编码规则简明);三是速度快(重码率低)。同时满足这三个要求的技术支持就是智能化。以前编码品种多的一个重要原因就是多数编码是人工实现的,以小农方式开发高科技产品,而现在都是用计算机编码,软件开发投入也相当大,因此对编码设计人员和对软件设计人员的要求都相当高,换句话说,编码只有与软件相结合,才能实现真正的智能化。
汉语语料库作为一个大的字、词使用数据库,对于中文信息处理技术的发展,特别是自然语言理解,如语音输入、字符识别、整句输入、机器翻译等等的技术发展都将提供非常有价值的资料和统计依据。我国自于九十年代初开始启动国家级汉语语料库的建立工作,已经做了八年多。据国家语委的同志介绍,这个语料库约有7000万个语料,与英国的英语语料库规模相当。据称,1999年3月这个语料库将向社会公布。
3 汉字编码的规范化
汉字输入工具从使用整字输入的大键盘、中键盘,发展到使用编码输入汉字的小键盘。各种编码输入方法,很大程度上推动了计算机的普及与应用。
但是,目前作为输入法基础的汉字属性,如:笔画、笔顺、部件、结构、双拼中声韵母、
调号的表达等缺乏统一的科学依据,一些不规范的编码对识字教学产生干扰,给计算机教育造成混乱
随着计算机应用的日渐广泛及计算机教育在中小学和高校的逐渐普及,汉字信息处理已经成为当前十分重要的课题。它既关系到使用汉字传播信息的速度与质量,又关系到教育手段的更新,对识字教学的科学性也有直接的影响。
汉字是由不同数量、不同功能的部件依照不同的结构方式组合而成的。部件的数量、功能和组合方式(位置、置向、交接法)是每个汉字区别于其它汉字最重要的属性。汉字的信息量主要由部件及其组合来体现。将组成汉字的部件拆分出来是汉字字形处理中首要的基础工作,也正是由于它的重要性,以致于人们在相当长的时期内,在不同地区、不同信息处理系统中自发地进行了这一工作,计算机形码的编制出现了万"码"奔腾的局面,部件拆分的不规范现象也逐年增多。这种状况既不利于计算机的应用,又不利于语言文字的统一规范,同时也给计算机教育和识字教育造成了很大的困难。
制订出汉字部件规范,不但可以解决存在的上述问题,而且有利于普及科学的汉字知识,增强全社会的语言文字规范意识,其意义非常重大。
1998年国家语委颁布了《汉字部件规范》和《汉字笔顺规范》,今后国家语委推荐使用的编码必须符合这些规范的要求,即中文信息处理所使用的编码与我国语言文字规范必须一致。
音码也有规范化的问题。如拼音码中"ü"的键位映射,有的编码方案选在"u"上,有的选在"v"上,还有个别的方案选用别的键,造成了混乱。另外,对于声韵双拼,各家编码的键位映射也不同,用户无所适从。其实,只要经过科学论证,确定一个标准的双拼键位即可解决。当然,标准必须科学。如:zh、ch、sh三个复合声母到底怎么对应U、V、I,可以根据V在左手,U和I在右手,按照zh、ch、sh出现的频度使左、右手合理负担。据说,这项标准不久将问世。
规范化研究已引起国家重视并取得了进展,相信在不远的将来,我国继秦始皇的"书同文、车同辙"之后,"字同码、字同音、字同型、盘同位"的目标终将实现。
从这个角度出发,我们不难看出,将会有一大批编码被淘汰。有人估计,到2010年,经过规范编码、市场竞争等筛选后,我们使用的编码不过是五六种左右。