关于汉字数字化的几个观点
我小的时候曾热衷于拼音文字,晚年却在搞无字库汉字。写了一些文章,获得一些新认识,今把一些主要观点总结于下:
1、中国汉字是世界上唯一的还在使用的最古老的文字;是维系中华民族的纽带;是最古博精深的中华文化之载体;并形成了大半个亚洲的汉字文化圈。为什么19世纪末到20世纪反被认为是落后的文字呢?持这种观点的还都是中国先进的知识分子。鲁迅甚至说:“汉字不灭,中国必亡”,毛泽东也主张走世界共同的拼音文字道路。我认为其原因是:中国的活字印刷传到西欧后,反使拼音文字如虎添翼,因为它们只要用50-60种铅字,更加方便,很容易地导致了机械打字机的发明,文人的笔耕也机械化了。后来虽然也出现了中文打字机,但要带几千上万的汉字字模,十分笨重,不能用来写作、写信、写便条。现在已由机械化,经过电气化,进入了数字化时代,方块字已可以由50-60种笔画合成,象英文字由字母合成一样。汉字一点也不落后,反而突现它的种种优点和优势:字形易辨,信息量大,阅读快;词语短,组词方便,简称歧义少;能开发右脑,提高智商,思维快;超方言,通古今,现代使用则3000-5000个汉字就够了。但是现在的电脑,虽然都能处理汉字,都离不开庞大的汉字库,都是西文电脑,最后离不了英文。除不利于普及外,老外还有可能在英文软硬件中埋下窃听程序,不安全。我们应研制以汉字为第一语言的自己的真正的汉字电脑。
2、一方面是汉字落后论,另一方面是英文在世界上日益普及的现状,产生了世界文字向拼音化发展的理论。它认为:文字起源于图画,经过象形文字——表意文字——表音文字,最后达到最高级的拼音文字,而字形则由复杂走向简单。由于语言在先,文字在后,文字能记录语言,所以还有一个理论说:文字仅仅是为了记录语言的。于是不能按语言词序记录的文字,就是原始的文字。这句话本身就是矛盾的:文字的目的就是为了记录语言,怎么又有不能忠实地记录语言的原始文字呢?事实上,语言和文字是两套不同的符号系统,除作为人类交流信息的工具外,更重要的是作为人类思维的工具。在发明录音机之前,只有文字能记录语言。在纸和印刷术发明之前,文字的交流作用不能充分发挥,才突别显现其记录语言之职能。从聋哑人社会(据报道还有不会说话的人种)没有语言而可以使用文字,以及文字中的图表、公式,能大大促进人类思维而不易用语言表达的情况来看,文字决不是从属于语言的。最早的文字也不可能是图画。在能画图之前,人类只能作出简单的刻划符号,他们应该代表当时少量的音节,而不可能图示万千复杂的事物。文字之前还有结绳记事,它不可能是什么“大事大其结,小事小其结”所能说明的。近来在南美发现的结绳,主绳上连许多分支,分支的一定位置上打结,俨然构成一个二进制系统。这种结绳不可能像形、指物,只能记录不同的音节,所以文字应该由表音开始。另外,英文的扩张是由过去的军事、经济推动的,论表音它不是最好的表音文字,还要用国际音标注音,怎么能说拼音文字是发展方向呢?
3、感中文打字机的不便,引发汉字落后论,叹英文的扩张,误以为由于汉字难学而不能走向世界。上世纪三十年代就进行过拼音扫盲的试验,说成人学一个月就可以写信了。拼音字母虽然只有30-50个,但拼音的技能也不容易掌握,中国人常难拼准自己的发音。因为汉语只有400来个音节,不如直接学会400个简单汉字,用白字来代写,不是也可在一个月内学会写信吗?所以试验结论,看起来是带有偏见的。拼音文字推广了近百年,最后还是失败了。大家把原因归罪于汉字的同音字太多。于是近来又在设计新方案,加上各种标调的方法,增加部首、义项或叫什么基因的用来分化、鉴别同音字的符号。我不知道新仓颉们造的新字有多少种,可能与输入法的万码奔腾局面差不多吧。人人都指望被国家选中,加以推广。殊不知,语言文字是约定俗成的,不是少数几个人创造的,也不是权力、武力能强制推广和消灭的。秦王统一文字,解放后推广第一批简化汉字,行政权力是起了重大作用,但基本上是规范已有文字,而不是推广新文字。一些少数民族是推广了新设计的文字,那里是人口不多和原本没有文字。人口愈多,惯性愈大;使用愈久,载负文化成果愈多,冲力就愈大;想用拼音文字取代汉字,比螳臂挡车还难。武则天造的字,第二批简化字都不能被接受,用种种千奇百怪的新字代替汉字能成功吗?自信是优秀的方案,也应该想法子,逐步(可能每次一小批字或在小群体中)投入实际使用中,经过考验、修正,才能指望成功。文字要应付种种可能性,比软件会遇到的各种可能性要复杂得多。软件设计者无论如何也不可能考虑到所有可能性,所以要进行试验、试用,新文字不经试验使用,怎么能够满足实用的需求?
4、当前数字社会中汉字是还存在种种问题;乱码;缺字;不能科学地排序、难于搜索;万码奔腾,却常不能输入一个冷僻字……人们还没有认识到问题根源,难以克服,这成了文改派要求拉丁化的主要理由。实际上根源很简单:是当初错误地选择了汉字本身作为编码对象:给每个汉字规定一个内码(信息交换码)。要对文字进行数字化,必须对它的某个集合进行编码。任何数字通信,包括个人一对一的或小集团内部的密码通讯,首先要选定一个元素固定、有限的讯号源集合,作为编码对象。文字是公开的,最大众化的讯号,更必须如此。现阶段规定信息交换码时,没有应用信息论原理,引用信息论熵公式计算文字熵没有实际意义。汉字熵比英文熵大,不是好事,也不是问题的本质。如果计算英文词的熵,它同汉字熵一样大或更大,所以不作为编码对象。汉字集元素无定数,不稳定,当然也不能作为规定交换码的对象。另外,它是个大集,人为地限定汉字数目,也是成千上万,记不住,也难编研出无重码的输入法。而且限定汉字数,就使汉字僵化,不能发展。当前光怪陆离的网络词语,主要就是由僵化的“字库加编码”方式逼出来的,否则他们应该是纯正的新汉字或新词语。造成上述错误,有其历史原因及技术原因。我们是参照了中文打字机,看到汉字和英文字母同样有铅字字模,就被看作是同类事物。实际上,在信息化时他们根本不是同类的。只有英文字母集,元素少(52个),已稳定,才可作为编码对象。与字母同类的应是汉字笔画。但当时的软硬件技术还不能做到笔画组字。现在可以解决此困难,应该着手纠正这一错误,否则总有一天要触发“定量炸弹”:汉字编码集一有变化,过去数字化劳动的成果,会像世贸大厦一样被炸毁了。
5、文字应定义为“人类用改变物质载体状态的办法来记录的信息”。这个定义既包括了纸张上的文字,也包括了过去的结绳文字,及现在电脑中的文字。因此,文字形态必受物质载体和所使用工具(笔)的影响。两河流域的泥板上只能是丁头字;黄河流域的甲骨及竹简上,刻的字较长,后来压缩成方形,横笔就比竖笔多;轻贱的纸和文字的普及,促成了隶变;等等。但有一个疑问,曾在网上提出讨论,仍无结果:西欧17-18世纪还用羽毛笔,不容易画圆弧,但字母中有半数带有圆弧;中国两千多年前就用毛笔,画圆弧很容易,为什么最后在隶、楷、宋体中都没有圆弧,连点和弯钩都不是圆的。
电脑内存、磁盘、光盘中的文字,是人类不能直接感知的数码(编码),它必须还原成视觉符号才被人类识别和思考,虽然将来由电脑自己识别和思考时,不需要这个还原的步骤。上面说过,这些编码的原象是印刷时代的铅字。这对拼音文字是合适的,但对汉字型文字是错误的,因为被编码的信号源元素无定数。处理一种拼音文字,因为字母少而定数,只要一个字节的编码就可以了。但在互联网世界,要容许同时使用万国文字。即使一种拼音文字字母不多,但要容纳所有拼音文字,一个字节肯定不够。而且文字种数未定,字母表也不会都相同,包容一切拼音文字字母的符号集必很大且非定数,再加上所有汉字型字苻,就更繁杂了。现在准备用的解决办法是,扩大编码空间,一个字符用4个字节,可容纳40亿(256的4次方)字符。各国正在像抢注域名一样,抢占属于本国文字的编码空间。从中国汉字的“字库加编码”方式存在问题的经验来看,这条道路也是走不通的。主要问题不在于编码空间不够,而是字符根本没法收全。在手写时代,只要纸和笔,可以随意写出任何字形。机械印刷时代,就只能使用制造了铅字的文字。相信有不少文字还没有来得及进入铅字库。电脑技术应该能取消这个字库的限制,又可以写出任何字形。我在最繁杂的汉字世界里试验,只要用50个笔画,就已经组出2万汉字,一定也可以组出10万以上的汉字。拉丁字母应该可以只用横、竖、左斜、右斜、点及圆弧等几个笔画组出,其他字母文字也应该可由少量、可能是有点特色的笔画组出。再深入研究,所有文字可能只要由更少的元笔画组出。研究现有的部分文字,得出规律,使它适应于处理古往今来的所有文字,一定程度上也就能适应不远将来之需要,这才是正确的方向。
2004.5.18
陕西省气象局 张时钊 邮编:710015
网
站:汉字电脑研究所;汉字电脑与气象历
网
址:www.chancezoo.net (或com)
电子信箱:postmaster@chancezoo.net;mzsgls@pub.xaonline.com