扩展汉字的编码

2013 年的《通用规范汉字表》是目前简体中文字形的最新标准。其中有若干字为新的类推简化字,如字典末尾均有的「𬭊」「𬭳」「𬭛」「𬭶hēi」「mài」(105–109号元素名)。

除「鿏」外,其余均位于 Unicode 8.0 新增的 Ext-E 扩展分区内。在较新的操作系统上,安装有相应的字体,这些汉字均可正常显示。可能并非所有输入法均能输入这些字。(可以根据上面给出的拼音测试一下自己的输入法是否符合国家标准。)

Ext-E 的范围是2B820–2CEAF。使用UTF-8或GB18030编码均需4个字节:

GB18030UTF-8
𬭊9933a838f0 ac ad 8a

中学教科书上也有一些类推简化字在计算机上是较难录入的:

绝𪩘1多生怪柏,悬泉瀑布,飞漱其间,清荣峻茂,良多趣味。

——《水经注·三峡》

木直中绳,𫐓2以为轮,其曲中规。

——《荀子》

类推简化字是一个大坑。《字表》只有8000余字,而汉字数以万计。表外字如何处理,一直存在争议。大量古代用字现已不再使用,为它们类推简化写法毫无意义(在信息化时代,意味着要为它们制作计算机字体——尽管从没有、也不会有人用它们)。不做类推,又限制了某些汉字在日常生活中的使用,化学元素名即为一例。必须佩服化学家们的创造力。104–109号元素名称的简体字在1998年版的《新华字典》中就已经存在了,难以置信的是,直至2014年以前,计算机系统竟均无法处理(一般用临时拼字或造字的方法解决,不规范的场合也有用繁体字「𨧀𨭎𨨏𨭆䥑」的,例如:百度百科的「元素周期表」「䥑」「钅杜」等词条)。

新闻和《健康教育读本》上经常见到的「二𫫇è英」,竟有四种写法,除了正规的写法外,还有:「二恶英」(「恶」为「ě」的简化字)、「二⿰口恶英」(拼字)和「二噁英」(用繁体)。

我这种深受应试教育毒害的读书人,经常会把这些没用的东西当成学问。

中学教科书的做法是一方面谨慎选材(尽量规避未简化字),另一方面总是做类推简化。如古人名「赵孟𫖯」等。事实上《字表》亦收录了教科书中出现的类推简化字。

今天我还恰好在景点里见到了一种名为「红花木」的植物,「㡭」这个形状还出现在「繼」中,后者被简化为了「继」,但「檵」要不要类推简化?不知道。《字表》里既没有「檵」字(但该字包含于1988年的《现代汉语通用字表》中),又没有(不知哪儿来的类推简化字)「𪲛」。那么这种植物的名字的规范写法是什么?


  1. yǎn,常被录入为繁体字「巘」。例如:百度百科《三峡》词条。 ↩︎

  2. róu,常被录入为繁体字「輮」。例如:百度百科《劝学》词条。 ↩︎


分享