刊名: 教育研究
主办: 中国教育科学研究院
周期: 月刊
出版地:北京市
语种: 中文;
开本: 大16开
ISSN: 1002-5731
CN: 11-1281/G4
邮发代号:2-277
历史沿革:
专题名称:教育理论与教育管理
期刊荣誉:社科双效期刊;国家新闻出版总署收录;中国期刊网核心源刊;CSSCI 中文社会科学引文索引来源期刊;北京大学《中文核心期刊要目总览》来源期刊;
创刊时间:1979
汉字“万码奔腾”的终结
【作者】 刘照曦1 刘瑞祥2
【机构】 (中国民航大学1 山西省长治市化工局2)
【摘要】【关键词】
【正文】 摘 要:论述汉字编码统一的必要性和解决途径
关键词:汉字编码 统一 多功能性 用户界面
一、汉字编码需要统一
汉字编码的统一,就是要找出一种完善的编码,它能胜任信息时代汉字键盘输入的全部工作,包括手机及小键盘等数字终端设备、具备汉字电子字(词)典查阅等功能,符合国家语言文字政策,比较简易,能使汉字编码成为一种全民常识。
现在的拼音不行吗,不是大家都在使用吗?你可别说,还真不行,科学的问题不是举手表决能决定的!单纯拼音输入法只能输入你认识的常用字,生字没有办法,电子字典自然也不能应用,小键盘没法使用,手机输入汉字效率很低。全世界的各种文字也就剩下汉字还没有普及电子字典。电子字典不仅仅是查个生字,而是将百科全书从学者书斋中装入大众口袋里,事关中华民族伟大复兴大业的重要组成内容。
单纯拼音,存在一个先天缺陷:就是单字不好打,生字不能打。西方学者认为:汉字影响中国的创造力——“众所周知,汉字与其发音并不对应,导致学习并记住汉字非常困难。遇到生字,你根本无法读出来……(参考消息2012.8.24.14版)”。 生字,人们又称为“拦路虎”,虽然不经常碰到,但一旦遇到,还真是一只老虎。
单纯拼音输入法还有一个极大的弊病,就是造成一代人“提笔忘字”,给中华文化的传承造成很大的麻烦。之所以非常流行,一是在“普九”基础上不用再学习,二是真正完善的编码没被认可,临时凑合使用。这一现状造成一种误会,以为理当如此!
泱泱大国,文字捋不顺,岂不影响“先进文化”。在汉字信息化的道路上,单纯拼音输入法成了无法绕开的绊脚石。
二、 编码“用户界面”要友好
汉字的“音、形、义”是一个整体(保留部首就是保留“义”),在编码中,任何偏废都是不规范的,现实情况,反映出我们的有关部门对待汉字编码规范的适用范围,指导思想有点混乱。
不讲“形、义”的“拼音码”又怎么符合“规范”呢?
这正是我们在编码“规范”适用中的问题。如果你搞的是形码,有关部件就必须符合GB 13000.1规范的规定,如果你搞的是音码,只要和汉语拼音规定不冲突就行。不妨这样假设,如果我们把汉字的“形”比作一个老人,你要虐待他,那是绝对不行的;但你干脆遗弃他,就合理合法,岂不荒唐!我们对汉字制订了那么多“规范”,原来没必要执行,“绕开”就算了。
其实,汉字编码只有“音、形、义”全面发挥,才是规范的。
才能达到“用户界面友好”,这是汉字输入的起码要求:无论遇到“会写不会读、会读不会写”的情况,都能及时妥善处置。
作为国家的统一编码,要求必须是多能的,这无可置疑。试想,某种键盘输入法,费好大劲学会了,却功能单一,只适用大键盘,另如小键盘,还得再学习其它方法,更遑论字典,那就不具备统一的能力。当然,盲人打字等特种需求无妨另起炉灶。
很长时间以来,我们搞编码都喜欢“单打一”,音码就是音码,形码就是形码,数码就是数码。相互之间,风马牛不相及,还喜滋滋认为是“万码奔腾”,许多专家犯愁的是,怎样来区分它们的优劣。长期的“单打一”使我们的汉字编码工作始终徘徊在“瞎子摸象、管中窥豹”的“打字”阶段,由“万码奔腾”直到“万码齐喑”,仍然在五里雾中摸索。
三、“通用”是终极编码的基本要求
如果提出一种多功能、能统一的编码,即“通用”标准,其结果必然是唯一的,那才是汉字编码研究的正确方向。
只有多功能编码,才具有统一编码的可能,才能在“普九”中安排教学课程,构成社会统一需求,从而降低社会成本。
可能统一吗?质疑的人可不是一个、二个人。
其实,音码、形码、数码都是汉字编码的不同形式,是针对汉字“音、形、义”特征,从不同的出发点切入的,但研究对象是相同的。汉字编码统一,就是要在这多种方法之间,利用系统工程学原理,找出契合点并优化组合,弃繁就简,扬长避短,使之既能适应多种任务,又能彼此协调,让各方面的优势都得到发挥。就像现代战争,要把单点进攻,改为多维立体作战。汉字的信息是丰满的、完整的,单纯音码或形码都是对中文信息的肢解,编码中要把中文信息完全体现出来,才叫中国特色。
音码,能较好适应大键盘,因为我们当初搞汉语拼音用的就是拉丁字母。其中实用声键23个,韵键7个,但“韵键”的分布太窄,用键太多,为使韵键的效率高一些,有人搞了“双拼法”。拼音,作为识字手段无疑是好的,用作汉字输入却勉为其难,同音重码很多,不管怎样“智能”,仍然保留着音码的所有“基因”,存在不能输入生字的“硬伤”。
形码,对单字的字形描述要精确得多,重码较少。由于汉字拆分后的部件数量大,记忆量大。部件,有的有读音、有的无读音,命名困难。不会写的字,没办法输入。过去曾出现过许多效率很高的形码,曾流行过一阵,因为“字元”或“字根”不“规范”而不被认可,但大字符集的汉字输入至今还依赖这些编码。
数码,以数字作为编码单元,有5码元的,有6-9码元的,还有10码元的。5码,以横、竖、撇、点、折直接命名,记忆量小,但效率很低,描绘独体字结构还可以,在手机中一般作为标准配置,在机场等场所兜售的“x分钟码”大都是这样的,但作为输入法把部件拆分得支离破碎,不太理想。10码数字能和小键盘良好匹配,部件分配均匀,离散好,字典功能也不错,易分类,记忆量适中,只要处理好和大键盘的匹配,还是很有前途的。
四、多功能编码的设计
1.“音形结合”,同时解决“会读不会写、会写不会读”。
2. 使用标准键盘,包括小键盘都干干净净,不加任何符号。
3. 采用“1声+1-4形(数)”编码,第一键为拼音第一字母,其余为形码,采用数字表示。26/10键组合应用。
4. 大键盘输入时,把1234567890“看上打下”用QWERTYUIOP对应代替,保持26键元,避免和数字键干扰,缩短“指程”。
5. 将V键作为“万能键”,用于音、形双向检索,大字符集(全汉字集)另库存放,和常用字输入互不干扰。
6. 应用于电子字典时,采用1声+4形,尽管包罗7万字,重码也不多,且可以音形双向检索,取码简便、明晰,比“四角号码”好多了,而“四角号码”实际上也是5码。
7. 当用于手机或小键盘时,编码第一字母得用2个数字确定,其余,用数字直接输入,效率可达标准大键盘的80%。
8. 部件的命名 汉字的部件多达560个,加上未统计的部首、独体字及大字符的部件,总数多达700余,很难记住,采用十码归类法,可经简单判断使之分为10类。
它的分类是这样的:凡部件作为一个独立存在的构字单元,第一笔画无交叉、无呼应(不构成八、小、口、丰等),按横、竖、撇、点、折,分别命名为1、2、3、4、5;第一笔画存在交叉,只有一个交叉点的,为6. 如“十、又、力”等;有多个交叉点的为7. 如“扌、里、车、也”等;对称结构,如:“八、丷、癶”及变形如“亻”及“卧人”等,命名为8;部件由三部分组成,如:“小、水、彡、氵、巛、川”等为9。由封闭结构如“囗、口”,包括部首“日、目、皿”等部首都规定为0.
9. 口诀:横竖撇点折-12345;叉串八小围-67890.
其中8、9的命名和旧“四角号码”相近,囗、口与○形似,命名0比较好记。有交叉的,单点为6、多点为7,也一目了然。
词组的编码规定由各字的拼音首码+尾字的数码构成。如:
合——人、一、口,编码就是:H810
综合——ZH810, 三结合——SJH81(只取5码)
不认识的字,如:睂——人、人、丨、目,查V8820 读mei.(眉)
10. U、I二字母首键无内容,设为专业词库,可自行添加。
五、多功能通用编码的研制进展
许多人都在研究这一课题,不太了解进展情况。本人研制的“汉字计算机/手机一体码输入法”近期通过了鉴定。
2013年5月11日在山西省高平市科技局组织下,由中国中文信息学会汉字编码专业委员会主持召开了《汉字计算机/手机一体码输入法》(以下简称“一体码”)技术鉴定会。……认为:
1.《一体码》的汉字部件选取、笔画取码和汉字拆分,符合国家语言文字和汉字信息处理有关规范标准。
2.《一体码》的笔形分类与数字键盘设定符合信息技术通用键盘汉字输入通用要求。
3.《一体码》部件笔形数字1234567890与计算机通用键盘QWERTYUIOP相对应,保持26键输入,小键盘数字输入也可按相同的编码方式进行。该技术实现了计算机通用键盘和数字小键盘输入汉字方法一致。
4.《一体码》的汉字部件选取全部采用0-9笔形代码。取码规则简单明了,一致性好,便于学习掌握,有利于使用者对汉字“音、形、义”的全面了解。
5.《一体码》应用“模糊键V”,作为常用字符集与大字符集的编码转换,既可减少重码,又可实现音形互查。“模糊键V”还可代替汉语拼音的首字母,解决了不认识的汉字的输入问题,实现多种方式的字典检索功能。
6.《一体码》用户界面友好,屏幕提示完备,具有自定义词组输入功能。
《一体码》规范、简单、易学和通用,有利于使用者正确掌握汉字,有利于提高汉字计算机输入效率,实现“打字、查字、识字、写字”四结合,达到了目前国内同类方案的先进水平。技术鉴定委员会一致同意通过技术鉴定。
希望《一体码》在推广应用中进一步完善。
汉字编码的统一,是惠及后代、功德无量的大好事,但目前,仍是一个美丽的中国梦。而“一体码”却是一个“丑小鸭”、“灰姑娘”,何时能化蛹为蝶?
关键词:汉字编码 统一 多功能性 用户界面
一、汉字编码需要统一
汉字编码的统一,就是要找出一种完善的编码,它能胜任信息时代汉字键盘输入的全部工作,包括手机及小键盘等数字终端设备、具备汉字电子字(词)典查阅等功能,符合国家语言文字政策,比较简易,能使汉字编码成为一种全民常识。
现在的拼音不行吗,不是大家都在使用吗?你可别说,还真不行,科学的问题不是举手表决能决定的!单纯拼音输入法只能输入你认识的常用字,生字没有办法,电子字典自然也不能应用,小键盘没法使用,手机输入汉字效率很低。全世界的各种文字也就剩下汉字还没有普及电子字典。电子字典不仅仅是查个生字,而是将百科全书从学者书斋中装入大众口袋里,事关中华民族伟大复兴大业的重要组成内容。
单纯拼音,存在一个先天缺陷:就是单字不好打,生字不能打。西方学者认为:汉字影响中国的创造力——“众所周知,汉字与其发音并不对应,导致学习并记住汉字非常困难。遇到生字,你根本无法读出来……(参考消息2012.8.24.14版)”。 生字,人们又称为“拦路虎”,虽然不经常碰到,但一旦遇到,还真是一只老虎。
单纯拼音输入法还有一个极大的弊病,就是造成一代人“提笔忘字”,给中华文化的传承造成很大的麻烦。之所以非常流行,一是在“普九”基础上不用再学习,二是真正完善的编码没被认可,临时凑合使用。这一现状造成一种误会,以为理当如此!
泱泱大国,文字捋不顺,岂不影响“先进文化”。在汉字信息化的道路上,单纯拼音输入法成了无法绕开的绊脚石。
二、 编码“用户界面”要友好
汉字的“音、形、义”是一个整体(保留部首就是保留“义”),在编码中,任何偏废都是不规范的,现实情况,反映出我们的有关部门对待汉字编码规范的适用范围,指导思想有点混乱。
不讲“形、义”的“拼音码”又怎么符合“规范”呢?
这正是我们在编码“规范”适用中的问题。如果你搞的是形码,有关部件就必须符合GB 13000.1规范的规定,如果你搞的是音码,只要和汉语拼音规定不冲突就行。不妨这样假设,如果我们把汉字的“形”比作一个老人,你要虐待他,那是绝对不行的;但你干脆遗弃他,就合理合法,岂不荒唐!我们对汉字制订了那么多“规范”,原来没必要执行,“绕开”就算了。
其实,汉字编码只有“音、形、义”全面发挥,才是规范的。
才能达到“用户界面友好”,这是汉字输入的起码要求:无论遇到“会写不会读、会读不会写”的情况,都能及时妥善处置。
作为国家的统一编码,要求必须是多能的,这无可置疑。试想,某种键盘输入法,费好大劲学会了,却功能单一,只适用大键盘,另如小键盘,还得再学习其它方法,更遑论字典,那就不具备统一的能力。当然,盲人打字等特种需求无妨另起炉灶。
很长时间以来,我们搞编码都喜欢“单打一”,音码就是音码,形码就是形码,数码就是数码。相互之间,风马牛不相及,还喜滋滋认为是“万码奔腾”,许多专家犯愁的是,怎样来区分它们的优劣。长期的“单打一”使我们的汉字编码工作始终徘徊在“瞎子摸象、管中窥豹”的“打字”阶段,由“万码奔腾”直到“万码齐喑”,仍然在五里雾中摸索。
三、“通用”是终极编码的基本要求
如果提出一种多功能、能统一的编码,即“通用”标准,其结果必然是唯一的,那才是汉字编码研究的正确方向。
只有多功能编码,才具有统一编码的可能,才能在“普九”中安排教学课程,构成社会统一需求,从而降低社会成本。
可能统一吗?质疑的人可不是一个、二个人。
其实,音码、形码、数码都是汉字编码的不同形式,是针对汉字“音、形、义”特征,从不同的出发点切入的,但研究对象是相同的。汉字编码统一,就是要在这多种方法之间,利用系统工程学原理,找出契合点并优化组合,弃繁就简,扬长避短,使之既能适应多种任务,又能彼此协调,让各方面的优势都得到发挥。就像现代战争,要把单点进攻,改为多维立体作战。汉字的信息是丰满的、完整的,单纯音码或形码都是对中文信息的肢解,编码中要把中文信息完全体现出来,才叫中国特色。
音码,能较好适应大键盘,因为我们当初搞汉语拼音用的就是拉丁字母。其中实用声键23个,韵键7个,但“韵键”的分布太窄,用键太多,为使韵键的效率高一些,有人搞了“双拼法”。拼音,作为识字手段无疑是好的,用作汉字输入却勉为其难,同音重码很多,不管怎样“智能”,仍然保留着音码的所有“基因”,存在不能输入生字的“硬伤”。
形码,对单字的字形描述要精确得多,重码较少。由于汉字拆分后的部件数量大,记忆量大。部件,有的有读音、有的无读音,命名困难。不会写的字,没办法输入。过去曾出现过许多效率很高的形码,曾流行过一阵,因为“字元”或“字根”不“规范”而不被认可,但大字符集的汉字输入至今还依赖这些编码。
数码,以数字作为编码单元,有5码元的,有6-9码元的,还有10码元的。5码,以横、竖、撇、点、折直接命名,记忆量小,但效率很低,描绘独体字结构还可以,在手机中一般作为标准配置,在机场等场所兜售的“x分钟码”大都是这样的,但作为输入法把部件拆分得支离破碎,不太理想。10码数字能和小键盘良好匹配,部件分配均匀,离散好,字典功能也不错,易分类,记忆量适中,只要处理好和大键盘的匹配,还是很有前途的。
四、多功能编码的设计
1.“音形结合”,同时解决“会读不会写、会写不会读”。
2. 使用标准键盘,包括小键盘都干干净净,不加任何符号。
3. 采用“1声+1-4形(数)”编码,第一键为拼音第一字母,其余为形码,采用数字表示。26/10键组合应用。
4. 大键盘输入时,把1234567890“看上打下”用QWERTYUIOP对应代替,保持26键元,避免和数字键干扰,缩短“指程”。
5. 将V键作为“万能键”,用于音、形双向检索,大字符集(全汉字集)另库存放,和常用字输入互不干扰。
6. 应用于电子字典时,采用1声+4形,尽管包罗7万字,重码也不多,且可以音形双向检索,取码简便、明晰,比“四角号码”好多了,而“四角号码”实际上也是5码。
7. 当用于手机或小键盘时,编码第一字母得用2个数字确定,其余,用数字直接输入,效率可达标准大键盘的80%。
8. 部件的命名 汉字的部件多达560个,加上未统计的部首、独体字及大字符的部件,总数多达700余,很难记住,采用十码归类法,可经简单判断使之分为10类。
它的分类是这样的:凡部件作为一个独立存在的构字单元,第一笔画无交叉、无呼应(不构成八、小、口、丰等),按横、竖、撇、点、折,分别命名为1、2、3、4、5;第一笔画存在交叉,只有一个交叉点的,为6. 如“十、又、力”等;有多个交叉点的为7. 如“扌、里、车、也”等;对称结构,如:“八、丷、癶”及变形如“亻”及“卧人”等,命名为8;部件由三部分组成,如:“小、水、彡、氵、巛、川”等为9。由封闭结构如“囗、口”,包括部首“日、目、皿”等部首都规定为0.
9. 口诀:横竖撇点折-12345;叉串八小围-67890.
其中8、9的命名和旧“四角号码”相近,囗、口与○形似,命名0比较好记。有交叉的,单点为6、多点为7,也一目了然。
词组的编码规定由各字的拼音首码+尾字的数码构成。如:
合——人、一、口,编码就是:H810
综合——ZH810, 三结合——SJH81(只取5码)
不认识的字,如:睂——人、人、丨、目,查V8820 读mei.(眉)
10. U、I二字母首键无内容,设为专业词库,可自行添加。
五、多功能通用编码的研制进展
许多人都在研究这一课题,不太了解进展情况。本人研制的“汉字计算机/手机一体码输入法”近期通过了鉴定。
2013年5月11日在山西省高平市科技局组织下,由中国中文信息学会汉字编码专业委员会主持召开了《汉字计算机/手机一体码输入法》(以下简称“一体码”)技术鉴定会。……认为:
1.《一体码》的汉字部件选取、笔画取码和汉字拆分,符合国家语言文字和汉字信息处理有关规范标准。
2.《一体码》的笔形分类与数字键盘设定符合信息技术通用键盘汉字输入通用要求。
3.《一体码》部件笔形数字1234567890与计算机通用键盘QWERTYUIOP相对应,保持26键输入,小键盘数字输入也可按相同的编码方式进行。该技术实现了计算机通用键盘和数字小键盘输入汉字方法一致。
4.《一体码》的汉字部件选取全部采用0-9笔形代码。取码规则简单明了,一致性好,便于学习掌握,有利于使用者对汉字“音、形、义”的全面了解。
5.《一体码》应用“模糊键V”,作为常用字符集与大字符集的编码转换,既可减少重码,又可实现音形互查。“模糊键V”还可代替汉语拼音的首字母,解决了不认识的汉字的输入问题,实现多种方式的字典检索功能。
6.《一体码》用户界面友好,屏幕提示完备,具有自定义词组输入功能。
《一体码》规范、简单、易学和通用,有利于使用者正确掌握汉字,有利于提高汉字计算机输入效率,实现“打字、查字、识字、写字”四结合,达到了目前国内同类方案的先进水平。技术鉴定委员会一致同意通过技术鉴定。
希望《一体码》在推广应用中进一步完善。
汉字编码的统一,是惠及后代、功德无量的大好事,但目前,仍是一个美丽的中国梦。而“一体码”却是一个“丑小鸭”、“灰姑娘”,何时能化蛹为蝶?