再谈无字库汉字的意义和可能性

 

    目前汉字植根于电脑的方式是字库加编码(拼音码也是编码的一种)。我国开始时用的字库只包含两级字库6768个汉字,以后增加到1-2-3万,甚至建立10万的字库。但是不管字库多么大,总会有个别的人名、地名用字,尤其在录入和研究古代文献时更会碰到个别古字、冷僻字,在电脑里找不到。虽然发生这类不方便的几率很少,关系也不很大,但是如果长期如此下去,强迫人们只能使用字库里有的汉字,汉字就僵化而不发展了。但是我们知道:任何事物,一旦僵化,等于宣告死亡。

    严格地说,英文植根于电脑的方式,也是字库加编码。只不过它只需要26*2个字母及其ASC码,而几十万、上百万个英文字是不需要字库和编码的。即使所有人都不用笔写,都使用电脑,也不会限制新英文字的发生和发展。但是也因为英文字母已凝固僵化,而且数量特别少,我看现在已有苗头影响了英文文化。原因是在于,社会不断进步发展,认识不断深化,新技术事物不断涌现,需要的新概念、新字也愈来愈多。如:莎士比亚只掌握3万英文单词,到上世纪30年代,一般常用字典就有英文单词29.2万(美国韦帕斯特词典收字40万)。这个增长过程是无止境的,是不断加速的。而英文单词,如果按平均字长5个字母计,任何字母的随机组合都可以是一个字的话,也只能有26的五次方,即1188万个单字,如果字长增到10字母,则为140万亿个。实际上字母组成单字是要服从一定规律的,这些随机组合中,大概只有千分之一是可用的单字。要增加新字,就要增加长字长。字太长,阅和读都不便,于是出现大量缩略语。缩略语字短,数量有限,重复过多,意思易混淆,阻碍信息的有效交流。

    在这方面,汉字比英文优越得多。中文的简称虽短但不易混淆。我们这里暂以全部组合都有意义的假设进行估算比较。如果评价四个汉字组成一个词,汉字总数以10的五次方即10万计,组合数可达10的20次方。26个字母要组成同样数目的字,则字长应为14个字母(26的14次方=6×10的19次方)。书面上,一般两个字母与一个汉字相当,则英文要比中文长14/8=1.752倍。汉字总字数取为1万、1千时,分别为1.41、1.06倍。汉字的不同笔划数与英文字母数相当。而一个汉字平均10笔,相当于把10个字母压缩在两个字母的位置里。这就是说中文要比英文短5倍。英文字母是线性排列的,长而难阅读,中文笔划是平面分布的,短而阅读快,另外还附加笔划位置不同而产生的信息,所以效率高。效率差异的重要原因就在于:英文是线性拼音的,中文是平面拼形的。人类开始用语言交流信息,才脱离于动物范畴。后来发现用音节序列传递信息远不如用图形文字快而有效。加之当时没有办法记录声音,而文字却可以书写、印刷,因而可以保存、传播,文字就上升为决定性的文化工具。但没有插图及其他公式符号的英文,却是单纯的音节符号,这决定了它的落后性。

    语言文字除了作为信息的保存和传播的工具外,更重要的是作为思维的工具。在这个更高、更重要的层次上,线性的音节是远远比不上平面的图文的,所以近代科学著述中少不了各种公式符号。奇怪的是,即使在单纯的信息传递上,语音的重要性也在不断降低的今天,还有人指责汉字在标音上的缺陷。实际上有人研究,在标音功能上,英文比汉字好不了多少,前者被打0.5分,而汉字也达0.3分。所以我认为,为了追求汉字的标音功能,采用拉丁拼音文字或创造另一种文字来代替汉字都是不必要的。只要像简化字形一样,简化多音字的读法,许多字干脆读半边,以提高声旁的标音功能就足够了。

  最后剩下来的一个缺点,是说汉字难读难写难学习。但也有人估计说,学汉字的时间只要学英文时间的三分之一。从我国大部人长期学英文都不成功,以及美国名演员波蒂埃学习英文阅读的艰辛故事(见自考课本综合英语第一册第四课)来看,实际上学英文不比学汉字容易。说汉字难学,可能是把学英文字母来比较学写汉字。实际上字母只相当于汉字的笔划。如果认、写二十来个汉字笔划,我想最多只要半天就足够了,而学26个英文字母就不那么容易。现在作家写文章、柜台上开发票,大部分用电脑代替了笔,将来必然会人人、事事用电脑。都可得到电脑帮助,或全部交给电脑干,只有(阅读)还要人亲躬。而在这一点上,汉字无论如何要优越于拼音文字的。

    所以,许多人预言,汉字将是未来信息社会的首选文字。

但是目前汉字植根于电脑的方式必须靠大字库。字模字库的使用,有利于字形的规范化,但却扼杀了它继续发展的生机!

    能不能不要大字库,只要少量笔划字模,像由英文字母组成英文单词那样,生成所有汉字呢?

    无所不能的电脑,应该能够做到这点。但是没有人想到这点并提出来,更没有人去研究实现它。

    上世纪80年代初,微机刚进入国门时,大家都忙于解决汉字输入瓶颈。汉字不能快速地输入电脑,方块字就得淘汰。于是人人奋起,万马奔腾,克服了汉字输入难关。这时电脑硬件已快速发展,内存迅速降价而扩充,更便于研制和使用精致的大字库。最早的仓颉汉字系统还使用字形的组合技术,那时已不需要了。80年代后期还热销的汉卡,竟慢慢绝迹了。以缩小字库内存容量为目的的汉字合成技术,没有了市场。技术上较难的、由笔划组字的技术没有人去研究。因为输入法的优化没有定案,允许人们一争高低;输入法的研究较容易,而且又有大量成功的先例;人情的惯性作用使大家都挤到这一独木桥上,形成了万码奔腾乱码翻腾的局面。

    由少量汉字笔划自动生成汉字的技术,研制无字库的汉字操作系统,不是为了节省内存开销,也不是为了提高汉字输入速度,而是关系到汉字的生命和发展,我们应该立刻把精力转到解决这个重大问题上来。

    这个任务不是不可能解决的。1984年底,我在袖珍计算机PC-1500上开发出一套这样的汉字系统。这种巴掌大的计算机,当时最大的内存是18K,我的软件(包括显示、打印字模)只有8K。在微机上,8K的空间全部拿来放16点阵的字模,也只能放200多个汉字。所以不得不采用无字库技术。1986年参加全国微机展览时,这是唯一的一个无字库汉字系统。可惜的是,以后没有继续研究并转移到微机上来。我虽然提出了这个任务,并写文发表初步的理论设想,却得不到认同。领导把它看作是一般输入法发明,虽然在当时推广的PC-1500上轰动一时,但随着该机的淘汰而烟消云散。

    20年来,电脑技术突飞猛进,要完成这个任务则变得愈来愈困难。另一方面,这个任务的意义却显得愈来愈重要。许多得知我的无字库汉字设想的人,都说愿望很好,很重要,但都怀疑能不能实现。我想,我当年只用8K长的软件,就可以写出任何说得出的汉字,字形虽不好看不规范,但能认得出,可以流通使用。现在为了字形规范好看,把软件份量再增加10倍,100倍,甚至1000倍,总该能够圆满地解决吧。现在首先想把当年的软件搬到现在的微机上,不管字形好坏,先给大家看看,证明问题是可以解决的。由于硬件及软件平台的档次相差得太大了,我又没有了当年的机器,当时打印的程序竟难以读懂了。移植看来是不可能的,只得着手重新研制。希望半年内能拿出成果,可以演示无字库汉字。当然尽量想比当时的水平好一点。如果一时达不到,字形不好、让人见笑的东西也要拿出一个来,可以抛砖引玉呀!

愿无字库汉字的研究,也像编码输入法的研究一样,形成万马奔腾场面,解决这个更重要信息化技术,为祖国的汉字文化作出更大的贡献!

                       张时钊  2003.3.8    http://www.chancezoo.com