Unicode 里面的幽灵文字

手摘星辰 · 2018-8-20 17:10

Unicode 里面有一些不存在的汉字，没有人能说出它们的含义或应该如何发音，没有人确定他们来自哪里，他们被称为"幽灵文字"。它们是怎么进入标准的？原来，1978年，日本制定本国编码标准 JIS 时有一些错误，创造出这些文字，后来 Unicode 又全部继承了 JIS。

很长一段时间，幽灵角色仍然是一个无法解释的，几乎被遗忘的好奇心，但在1997年，他们开展了一项调查，以发现他们来自哪里。虽然JIS标准中的所有字符都应该记录其来源，但即使它存在，也不是非常具体，通常只列出它来自的文档。

你认为列出来源会使追踪角色的起源变得容易，但重要的是澄清什么算作“来源” - 幽灵角色的一个更常见的来源是“国家行政区概述” “（国土行政区画総，），日本地名综合名单。正如我最初所做的那样，你可能会想象这是一种图册，一本最多只有几百页的超大书。事实证明，最新版本是一个七卷集，每卷有大约九百页。想象一下，在没有页面引用的情况下跟踪单个字符。

尽管困难重重，对幽灵角色的调查成功地发现了它们的起源 - 主要是。通过采访参与制定标准的编目员，调查人员确定某些角色无意中被编造为编目过程中的错误。例如，妛是在尝试录制“山女”时引入的错误。“山在女”出现在一个特定的地方的名称，因此适合列入JIS标准，但由于他们不能将其打印为一个字符，山和女分别打印，剪切，并粘贴到一张纸，然后复制。

在阅读副本时，两张小纸相遇的行看起来像是一个笔画，并被错误地添加到角色中。原始人物（????）直到很久以后才添加到JIS或Unicode中，并且不会在我的大多数网站上显示。

核心幽灵人物：妛挧暃椦槞蟐袮閠駲墸彁彁

最后，只有一个角色既没有明确的来源也没有任何历史先例：彁。最可能的解释是它被创建为对强者的误读，但没有发现具体事件。

在普遍采用JIS标准之后，这些字符全部进入Unicode，它在CJK统一期间引入了自己独立的鬼字符集。

总而言之 - 在1978年，一系列小错误从无到有创造了一些角色。这些错误在未经发现的情况下被发现的时间已经足够长了，现在这些鬼魂至少是潜在的，是地球上每台计算机的一部分，潜伏在角色表的黑暗角落里。

按照这个速度，他们可能永远与人类在一起。

unicode, 里面, 面的, 幽灵, 幽灵文字

帖子热度 1.7万 ℃

Unicode 里面的幽灵文字

相关帖子

QQ号被盗的原理

大学里面消失的专业

ASCII Unicode 和 UTF-8这些之间的关系

电脑里面的江湖之机箱

在小区里面听见有人喊“疑似”

短信里面的退订 TD有用吗

Unicode 里面的幽灵文字

相关帖子

QQ号被盗的原理

大学里面消失的专业

ASCII Unicode 和 UTF-8这些之间的关系

电脑里面的江湖 之 机箱

在小区里面听见有人喊“疑似”

短信里面的退订 TD有用吗

电脑里面的江湖之机箱