跳转到内容

动态组字

本页使用了标题或全文手工转换
维基百科,自由的百科全书

动态组字是一种汉字电脑等领域的编码理论及技术。

拼音文字英文字母,一套字体只要制作26个字母和一些标点符号就足够使用。但汉字是一种意音文字,若无数千到数万个字符数量,便不足以应付基本的消息交换。即便已有数万个字符,往往在面对古籍时还有缺字的问题。这造成汉字无论是制作、存储、使用、或交流,成本都远高于表音文字,这对汉字的文化发展非常不利。

鉴于此,中国大陆台湾都有人在研究“动态组字”技术,这个技术的目的是解除电脑系统对汉字的束缚。作法是,只在存储器中存储少量(约数百至一千多)的字根部件,并用程控,以递归的方式根据部件做即时的“二维组字”,显示到屏幕上。“字根”在此就相当于拼音文字的字母,差别只在于字母表音而字根表意。

有了动态组字,用户便可因应各式需求自行造字,再无缺字之虞。此外,组字的过程反向操作(也就是拆字),就可以作汉字理解,也有助于人工智慧手写识别及中文PDA手机手持式装置开发。亦可延长存储装置寿命。

Unicode

Unicode标准从3.0开始,开始有表意文字序列(Ideographic Description Sequence,IDS),为采用表意文字描述字符(Ideographic Description Character,IDC)与文字部件的组合,为缺字描述定下一个标准基础,只要加上解译描绘的机制,也是一种动态组字的实现。

参考

仓颉系统

这是最早产品化的系统,由早年电脑中文化的开拓者朱邦复所提出。编码上采文传码,是一种定长度编码,也就是说可造字有限。

文传码分为两版:

  • 2 byte版的文传码,上限是15 bits(三万二千字),第一个bit为避开ASCII
  • 4 byte版的文传码,每个输入码占6 bits共5组,每个6 bits为仓颉输入码(26个)+ 5个重复字(1号重复,2号重复)所以理论上有超过一千万个码位。

该系统精巧快速,但因以8086汇编语言写成,故需要重新解译才能跨平台使用。组字方式纯粹取决于字形外貌,配合仓颉输入法字根作部件基础,未必符合文字学原理,如“門”取码为“日弓”,乃取其首尾字根形状(“日”和“亅”)。优点:如果拼音文字,可组出符合中文构字原理的任何字,理论上可达一千万个字。目前只有在香港文化传信授权制造的特定的嵌入式硬件才有实现此技术。

参考

中央研究院汉字部件检字系统

中央研究院汉字部件检字系统的研发最早可追溯于1972年国立交通大学关于“交大字根系统”的一系列论文和报告。1993年,中央研究院资讯科学研究所中由谢清俊院士及庄德明助技师所带领的文献处理实验室页面存档备份,存于互联网档案馆)沿用“交大字根系统”的方法,经年整理各代古文,提出构字式(基于Big5)的作法,整理出各代文字的部件数据库,分析所有汉字在文字学上的合理组成,进行重作改造,进而建立汉字构形数据库。2008年更名为中央研究院汉字部件检字系统,程序部分改以GPL 3.0发布,资料部分则改以GFDL 1.2及CC-BY-SA 2.5 TW发布,作为整体软件项目时则以GPL 3.0发布。最新版本为2.7。目前中研院正开发3.0版,新版的中文字码将改用Unicode,亦支持简体中文Windows系统

汉字构形数据库于2013年4月26日不再更新,代之以小学堂文字学数据库。该网站查询接口所采用之字形图片及字形属性资讯皆以CC0 1.0通用共享。

参考

向量组字编辑器

台湾刹那搜索工坊(前易符科技)以构字式研究成果:汉字构形数据库为基础,改以Unicode IDS(Ideographic Description Sequence,且是不定长度编码)实现,成为构形码,可高效率以递归方式合成汉字,英语字母也可组到汉字中,但仍有合成汉字不美观的问题。2007年single.fnt作者本因汉字构形数据库著作权问题无法将刹那工坊维护的字形数据库兼字形档single.fnt转为开放文档,后因汉字构型数据库更改授权而GFDL化。

参考

CDL字形描述语言

美国文林公司提出的CDL字形描述语言(字描语,以XML为基础的构字式)。

参考

汉字组字伺服器“影”

日本京都大学的汉字组字伺服器页面存档备份,存于互联网档案馆)”。

意传科技汉字组建

考虑到汉语的方言字经常需要特殊字形方能显示,其提供Unicode表意文字序列转为动态组字的图像文件的工具,使用 Java 撰写。

参考

相关项目