汉文文本电脑编辑加工效率高于英文

更新时间:2024-03-31 作者:用户投稿原创标记本站原创 点赞:5541 浏览:17592

1.引言

在机械化时代,汉字文本的编辑加工明显地比英文繁难、低效.这是大家普遍认同的,也是汉字拼音化改革的一个重要原因或根据.现在汉字已经成功实现了电脑化处理.但这种电脑化处理,是在英文电脑化之后,是大量借用了英文相关技术情况下完成的.换句话说,具有文字处理功能的电脑最初是为了解决英文问题设计的,而后才扩展用于汉字.汉字一个字符要用两个字节,比一个英文字母用一个字节多了一倍;汉字字量庞大,字形复杂,字库比英文大得多;最初进入中国的微型计算机并不是都能处理汉字,有的要插上什么“汉卡”才行;汉字BB机曾经比数字BB机贵数百元、甚至上千元.这些现象使得许多人觉得:汉字的电脑化处理必定仍然是比英文的繁难、低效.当今这种认识十分普遍.著名语言文字学家周有光先生是一位可敬的百岁老人,他在古稀之年,比许多中青年人更早地学会了电脑打字排版,百岁之后,仍然不断出版了许多著作,是一位难得的与时俱进的老人.他曾用极为简短、概括的语言描述文字的技术性.他说:“任何文字都有技术和艺术两面性,可是拼音文字技术性强,而艺术性弱,汉字技术性弱而艺术性强.”“从古代文明转变到现代文明的历史转折时期,汉字的两面性还表现为两种文明之间的矛盾.这时候汉字既是古代文明的‘宝贝’,又是现代文明的‘包袱’.”[1]他是在1994年说这句话的,当时中国的出版印刷行业已经全面淘汰了铅字,汉字处理电脑化已经基本实现.到2004年,中国社会网络化进程快速推进,普通中国百姓每人每天都亲身感受到汉字电脑网络的无所不在.他又一次说“汉字是低效率文字.它仍然是文化发展的包袱”[2].这些话表明,他认为电脑化了的汉字和机械化时代的汉字一样,还是技术性比英文差,效率比英文低.本文则想要说明,从文本编辑加工处理各方面比较,汉字都比英文高效.最后一节着重举例说明现代电子信息技术发展的神速、难于预料和高新技术性,可能是使许多人没有看到汉字的技术性已经不再落后、低效的客观原因.

2.汉、英文字占用计算机存储量的比较

汉英两种文字信息处理中,占用电脑存贮量的比较是个重要性的问题.许多作者在比较汉、英文字属性优劣时,在论及汉字发展前途时都谈到这个问题.一种观点认为:汉字字量大,结构复杂,一个汉字占两个字节,故而用计算机表示、存贮、加工都要耗费比英文大得多的存贮量,是计算机的沉重负担.并认为这是古老的汉字不能适应信息新技术的一个证据.另一种观点则认为:汉字简明、准确、信息量大,这些优点在电脑文字信息处理中也一定带来许多好处.哪一种看法更正确?我们具体分析如下.

(1)字形的点阵表示

计算机的打印输出和荧光屏显示已经完全摆脱了金属铅字,使用数字化点阵.就字形点阵表示、存贮来说,汉字确实要比英文至少多消耗数百倍、甚至数千倍的存储.例如显示英文,最低可用7×9点表示一个字符.显示汉字最低需用16×16点.英文字符总量取为100(实际上Ascii可见字符为94个),汉字取为7000.那么汉、英字形库占用存贮量分别为:

汉字字库:16×16×7000点

英文字库:7×9×100点

简单计算可知:此处汉字字形存贮量是英文的284倍.由于汉字结构复杂,同一种点阵规模,汉字字形视觉质量比英文差.如果取英文的点阵规模为n×n,汉字的为(2n)×(2n),英文仍取100个字符,汉字取五万个字符.那么

汉字字库:(2n)×(n)×50000点

英文字库:n×n×100点

此时比值为2000.即全汉字字形存贮量为英文的200倍.这里所用的单位“点”,对应着计算机存贮的最小单位:二进制位.16×16点阵7000个汉字所占计算机存贮,用计算机术语说,占1750K位等于218KB≈0.2MB.24×24点阵7000个汉字所占计算机存贮量44032000位等于504000字节等于504KB≈0.5MB.

(2)字符的二进制编码表示

电脑表示文字信息有两种方式.一种是上述的点阵方式,这只用于计算机的可见输出,即制作纸版本时的打印,或者应答用户操作时的屏幕显示.还有另一种应用更广的方式即内部编码表示,它广泛用于信息存贮、传输及加工处理.编码表示类似于用四位十进制数表示汉字的电报码,只是电脑文字编码中用二进制整数表示文字字符.一个拉丁字符,通常用一个八位二进制数表示,就是用一个字节表示.一个汉字字符,按国家标准GB2312―80,用两个字节表示.粗看起来,似乎仍然是汉字编码多耗费了字节.实则不然.因为拉丁字符和汉字字符负载的信息量大不相同,拉丁字母和汉字不是同一等级的.一个最简单的具体比较,例如:“你好”这句问候语,它的汉、英文版占用编码字节数分别为:

汉文版:你好,占2×2等于4个字节

英文版:Howareyou,占11个字节(内含两个空格)

英文版使用字节数是汉文版的2.75倍,可记为K等于2.75.这个例子似太简单,难于引出一般结论.1988年笔者曾做过如下统计.选择选集、诗词等材料,取英、汉两种文本输入电脑,计算英文版占用字节数与汉文版占用数的比值K,得结果如表1.

文本资料都选用有影响的权威资料[3][4][5][6].统计中没有计入文题、词牌名、题解、注释等项.正文统计中含空格及标点.统计结果表明:汉文的简约、信息量大的特点是鲜明的,汉文版编码表示用电脑字节数至少比英文省一倍.汉文版这种简约性因体裁不同而差异甚大.中国古诗简约性最强,现代白话文为最弱.但这最弱,也只是英文的一半.就文字编码表示、存贮来说,汉字的简捷性具有明显优点,同一文本的英文版占用电脑存贮量至少比汉文版多耗费一倍.

(3)综合观察

前述(1)中说,汉字字形库比英文字库大数百至数千倍.前述(2)中说英文编码表示比汉文长2倍到4.5倍.如何综合比较呢?最容易说清问题的是一套微机系统.一套普通的微机系统,汉字字库只要一套.具体些说,不管你的电脑是只存储单独一本红楼梦,还是同时存储四大古典名著和其他什么材料,都只要用一套字库即可.以存24×24的宋体、楷体两种各一套计算,汉字字库容量约为1MB(一兆字节,即一百万字节).上世纪80年代中期,通用微机硬盘为20MB.其中不妨去一兆字节,视为汉字字库比英文多消耗的.所剩19兆字节中,存汉文版将比存英文版省下一半,即省9.5兆字节.硬盘容量在不断扩大.2000年初装机的,大多大于80GB(一个GB大约等于1000MB).其中不妨去一个GB(合100MB,足以容纳宋体、黑体、楷体等二三十种高精度汉字库)字节,视为汉字库比英文多消耗的.所剩79GB中,存汉文版将比存英文版省下一半,即省39.5GB.不到20年间,从省4.5MB,到省39.5GB,说明了海量数据的“积累性”.而每台微机或每个系统,都只用一套汉字库,就是“一个性或一次性”.

汉字的字量大和字形复杂就没带来什么消极影响吗?影响肯定仍然是有的,但主要反映在“一个性或一次性”.16点阵汉字库已经有200KB还多.内存容量如果只有256KB,许多软件就都无法运行了.上世纪六、七十年代国际上的许多大计算机都因为存储量不足无法处理汉字.80年代中期,内存容量低于256KB的微机还是大量的,它们都难于运行汉字系统.由此可见,汉字系统实现的起码条件确实比英文高.因起码条件不具备而使使用滞后于英文,在以往是普遍现象.由此事实引出如下结论:①汉字字量大,字形结构复杂,使新汉字系统最初实现时遇到比英文大得多的困难,因起码条件不具备而使汉字系统的实现滞后于英文,在初期是相当普遍的现象.②可一旦起步的难关突破,汉字就有了顽强显示自己特色和特长的机遇.就技术发展趋势估计,汉字的这种滞后期也有日益缩短的明确趋势.

3.汉、英文字编辑加工操作的比较

文字信息的电脑处理基本是字符串的处理,即字符二进制编码序列的处理.最基本的处理包括插入、删除、排序、查找等操作.基于这些操作,通过软件编程可以完成以下更复杂的操作,如:整块(块可以是若干句子、段落、节、章)的移位、删除,把全文中某个(些)甲词改为乙词(甲乙词长度可以不相同),对给定的词找出该词所在的每个位置(页、行、列号或章、节、段、行号),对全书自动生成目录和关 键 词索引,等等.这里每个操作所需要的处理时间都密切依赖于字符串的长度.按照上述2之(3),同一个内容的英文字符串比汉字字符串长一倍,所以英文的每个操作处理也就一定比汉字处理要耗费更多的时间.这是汉字简明特性在电脑处理中的反映.

在基本的计算机程序教材里,都容易找到插入、删除、排序、查找等操作其计算量与字符串长度的关系式.不同的字符串相比较,只要字符串长,其操作占用存储量和耗费的计算时间也就一定长.上述是一般性的论证,其正确性是显然的.下面我们还是看一个具体统计实例.材料是在加工、改造日、英、汉烟草工业词典时,所做的实验统计[7].该对照词典共计收词13666条.汉语词平均词长为4个汉字(8个字节),对应的英文平均词长为16(16个字节).对全部词做排序计算,英文词按通常的字母序,汉语词用笔画数序.处理结果如表2.

4.比较的简单结论

前述2~3的比较表明,对于现今的电脑,汉字文本的编辑、加工,比英文的更高效,从存储量和时间两方面看,都如此.因而,今天不应该仍然认为汉字的技术属性一概不如英文,汉字的效率普遍比英文低.而应该说,电脑化处理,使汉字重新获得了与英文一争高下的机会,汉字在某些方面开始显示自己的明显优越性.

5.必须给出的补充解释、说明

前述简单结论是真的吗?令人信服吗?为什么它和不少人的认识正相反呢?解释如下:

(1)应当强调,文字的技术属性不是固定

的、一成不变,而是随着社会科技的发展而变化

的[8][9][10].古代、农业时代、文字信息处理的手工操作时代,汉字处理全面代表了当时世界的先进水平.近代、工业时代或机械化时代,西方拉丁字母文字首先实现了机械化处理,而汉字则一直没能实现真正的机械化.汉字落后了,与英文相比较变得技术性差、效率低下.周先生的论断用在这个时代是正确的.现代、后工业时代或信息时代与电脑时代,其初级阶段,计算机的主机是电子化的,但输入输出仍然是机械化的,特别是输出仍然在使用金属的铅字.这时的信息化技术无法用于汉字.汉字与英文相比较仍然是技术性差、效率低下.周先生的论断在这时仍然是正确的.当英文电脑输出完全摆脱了金属铅字,实现了真正电子化后,很快地,汉字电脑就应运而生了.上世纪80年代中期以来,由于微型机速度、存储量的飞速提高和的迅速降低,汉字文本的电脑化编辑处理开始显得比英文更高效.在最后这短短的二十多年,周先生的论断不再符合实际.

(2)从汉字电脑化起步算起,至今不过30

多年;从汉字打字、排版淘汰铅字算起,至今不过十五六年.在汉字数千年的历史长河里,这二三十年只是短暂的瞬间.进展的迅速、神奇、出人意料,使得对许多问题的认识还有待于思索、分析;对于两三百年来形成、遗留的认识、积习有待于重新审视、思索、研讨、争论.

(3)本文前面的比较没有谈到键盘输入.英文键盘输入的历史已经有一个半世纪,早已成熟并广泛普及.汉字机械打字机明显的笨重、低效、繁难,自不待言.汉字电脑打字刚刚开始二十多年,它比英文打字多了一个“即时编码(把汉字转化为键盘符号串)思索”过程.如何使这个“即时编码思索”变得尽可能的轻松、容易、快捷,并且使得键盘输入技能和汉语文的基础教育良好结合,是这二三十年里被十分关注的问题.应该说,已经涌现了许多精彩、宝贵的创造,许多汉字输入法的效率和易学、易用性达到了实用水平.可以肯定地说,优秀汉字录入员的打字速度已经远远超过优秀英文打字员的打字速度[12][13].但总的说来,“使即时编码思索变得尽可能的轻松、容易、快捷,并且使得键盘输入技能和汉语文的基础教育良好结合”,这个关键问题还没有获得满意解决.但是事实已经清楚地表明,问题并不完全是出于汉字的技术属性,更多的问题来自对该项事业的组织、管理、领导.如果我们考虑包括键盘输入的全部“字处理”来做汉、英比较,可以说:它们在键盘输入上各有优劣,在文本编辑上汉字比英文更高效.这和机械打字时代汉字绝对地落后于英文已经完全不同.

(4)有些人从汉字电脑处理初期的种种艰难,如内存不够无法处理汉字,非得加汉卡,笔画多的汉字显示不清楚,汉字BB机比数字BB机贵很多,等等判定,汉字电脑处理总比英文麻烦、低效.这是只看到开头的艰难,没有看到进程和结果的辉煌.初期的问题在90年代实际上都已经获得解决.如果回顾英文打字的历史,我们会发现,它成熟之前的历史更漫长.1714年第一个机械打字机专利产生,到1872年第一台商业样机做出经过150多年.初期的英文打字机只能打印大写字母,第一台能打印大、小写字母的打字机诞生于1878年.最初英文打字员不能立即看到自己刚打的字,直到1883年才出现了现今这样打字员能立即看到自己打的字的打字机.早期曾因为色带的墨水容易退色,使得需要永久保留打印文件的政府及财会部门拒绝使用.早期的计算机也是从只能处理数码,到只能处理大写字母,到最后才同时处理大小写.电子计算机最初的30年,文字的打印输出一直没有摆脱金属铅字.现今这种可以处理英文的微型机产生于1976年,第一台出现在日本的可处理汉字的微机在这三四年后,第一台出现在中国的可处理汉字的微机只又晚两三年.从第一台汉字打字机到中国全面淘汰汉字机械打字机不过仅仅十年多[11].任何社会技术都有其发展、成熟的历史过程,不应该只记着早期的不成熟而无视后期成就.

(5)信息技术发展的神速往往出人意料、难于估计,不仅仅对于普通人,技术专家有时也会做出错误判断.下面表3给出20年间微型机性能变化的数据,性能指标上升的迅速和下降的速度显著都有些令人吃惊.


早期汉字字库确实是个承重负担.但大约仅仅20来年,汉字字库的存储量已经变得微不足道.最初微型机的硬盘仅仅10MB,用去1MB作汉字库,就用掉1/10.到2005年,硬盘一般大于80GB(1GB等于1000MB),用去100MB,不过仅仅用去不足1/800.早期的汉字BB机仅容许使用少量汉字,它仍然比数字BB机贵数百甚至上千元.那时,你如果想把自己的著作(不妨检测设有千万汉字)留给自己晚辈一个副本,那么费用将是很可观的.到今天一张700MB的光盘,可以存储3.5亿汉字,不过区区1.5元人民币.这谁能想得到呢?现今,MP3,MP4,数码相机,手机,都包含有大容量存储器;广布于街道、银行、机场、车站的日夜运转的监控器,每个监控器每个小时都要用掉三四亿汉字的存储量.大容量存储器几乎像领

带、帽子一样的到处可见了.