帮助:中文维基百科的繁简、地区词处理

本页使用了标题或全文手工转换
维基百科,自由的百科全书
字词转换
主页 讨论
转换请求
错误修复请求
地区词候选
转换介绍
字词转换处理 讨论
  繁简处理 讨论
  地区词处理 讨论
  公共转换组 讨论
帮助文档
繁简与地区词处理 讨论
  转换原理 讨论
  手工转换 讨论
  高级语法 讨论
  显示模式选择说明
相关模板
NoteTA 全文字词转换
CGroup 公共转换组列表
Lan 界面文字转换
地区用词 地区词模板
地区用词2 进阶地区词模板
各地中文名 地区用词信息框
查看 - 讨论 - 编辑 - 变动

中文维基百科繁简处理中文维基百科的自动转换,目的是以电脑程序适应不同用字模式的差异。

中文维基百科的读者和编者来自世界各地。他们所需求或贡献的中文在性质上有许许多多的差异,像是简化字繁体字的差异、各地区词汇的差异、方言差异造成的书面语言的差异等等。MediaWiki将这些中文性质集合在一起,称为“用字模式”。可以说:一种用字模式就是某些中文性质的一个集合。为了集成读者和编者多元的资源,也为了促进各方的交流,本百科并不规范读者或编者要使用何种用字模式,而是尝试以计算机程序的自动转换来适应这些差异,让编者可以以自己的用字习惯提供资料,也让读者可以选择所要的资料的用字遣词。因此编辑和阅读中文维基百科时有特别的事项需要注意。事实上,就连本页尝试说明的事项,也有许多模糊之处。

用字模式自动转换与MediaWiki系统本身的原理有关。大部分编者录入系统的文章内容,包括文字和维基语法等等,在此称为源代码。维基系统通常会保留完整不变的源代码,不作自动转换。读者使用维基系统时,并非直接阅读源代码,而是由系统将源代码即时自动转换成合适的形式,例如加上图片、超链接等等。而中文维基百科的用字模式转换就是众多自动转换程序中的一道。自动转换计算机程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。

大多数时候(默认情况),维基程序根据转换表转换。有时则根据编者在源代码指定的方式自动转换,包括不转换或是所谓“人手转换”。转换表就是一份列出各种不同用字模式之间,字与字或是词与词之间的对应关系的表格。当前只有管理员能编辑转换表。所谓“人手转换”仍然是维基系统在读者使用时即时作的自动转换,但是这时程序是根据编者在源代码中指定的方式为优先。编者可以在编辑存档后切换至其他用字模式查看情况。

用字模式选择

当前中文百科系统支持中文的zh(中文用字)、zh-hant(正体/繁体用字)、zh-tw(台湾用字)、zh-hk(香港用字)、zh-mo(澳门用字),以及zh-hans(简体用字)、zh-cn(中国大陆用字)、zh-sg(新加坡用字)、zh-my(马来西亚用字)九种用字模式。不过,当前中文维基百科只激活了zh-tw(台湾用字)、zh-hk(香港用字)、zh-mo(澳门用字)、zh-sg(新加坡用字)、zh-my(马来西亚用字)和zh-cn(中国大陆用字)等六种模式。zh(中文用字,即不转换)、zh-hant(繁体用字)、zh-hans(简体用字)三种模式主要用于维护,编辑需注册后在参数设置/小工具/界面显示工具中去除隐藏“不转换”、“简体”和“繁体”三个标签的复选框才能显示。zh-my(马来西亚用字)原被zh-sg(新加坡用字)所涵盖,于2018年正式拆分激活;zh-mo(澳门用字)原有zh-hk(香港用字)涵盖,于2013年正式拆分激活。要支持更多的用字模式需要修改程序,如果有实际需要请在讨论页中提出。

文章主体正(繁)体/简体选择(按优先级):

  • 所有人都可以把URL//wiki.kfd.me/wiki/条目名称)的wiki改成zh-<變體>,而//wiki.kfd.me/w/index.php开头的页面可在URL最后加上&variant=zh-xx(URL有?时用)或?variant=zh-xx(URL没有?时用)。其中xx可为hanshantcntwhkmosgmy
  • 已登录用户可在个人偏好选择不同的中文语言;
  • 匿名用户可选择浏览器语言,系统会根据选择设置,详见此处
  • 如果以上设置都没有,则默认不转换。

另外,不同皮肤(Skin)都增加了到各个用字模式的链接,如现在的Vector面板,链接是在页面讨论页链接旁,使用下拉菜单选择。以前的MonoBook面板链接则是在文章右上方。链接名称可以通过MediaWiki:variantname-zh-tw/zh-cnMediaWiki:variantname-zh-tw/zh-tw等修改。

界面用字模式

界面用字模式是独立于文章内容的用字模式。除了中文各种用字模式,还可以选择英文、法文等等语言。界面用字模式在已登录用户的个人偏好里设置。

转换技术

技术上,维基百科的字词转换有四层:其一是MediaWiki内置的转换表phab:source/mediawiki/browse/master/includes/languages/data/ZhConversion.php,供各维基计划全局转换;其二是MediaWiki:Conversiontable定义的繁简和地区词转换表,供中文维基百科本地全局转换;其三是各公共转换组,供主题领域相同和相似的条目统一转换;其四是各条目内设置人手转换,供该条目单独使用。其中,公共转换组和条目内人手转换人人均可编辑,而修改本地转换表则需管理员权限,修改全局转换表须向MediaWiki版本库提交代码。如欲新增或修复全局及本地全局转换,一般用户需在维基百科:字词转换申请,交由管理员协助处理。

转换表

当前,系统默认的自动转换是根据数个“转换表”。转换表就是一份表格,记载各种不同用字模式之间,字与字或是词与词之间的对应关系。又叫系统默认转换表。当前只有管理员能编辑定制转换表,一般人可以向管理员提出申请。

参见:Wikipedia:繁简体转换请求

系统默认转换表

系统默认的转换表在MediaWiki程序中:phab:source/mediawiki/browse/master/includes/languages/data/ZhConversion.php
参见Wikipedia:简繁一多对应校验表Wikipedia:繁简一多对应校验表

定制转换表

管理员可在Mediawiki:Conversiontable/zh-hansMediawiki:Conversiontable/zh-hantMediawiki:Conversiontable/zh-cnMediawiki:Conversiontable/zh-twMediawiki:Conversiontable/zh-sg,及Mediawiki:Conversiontable/zh-hk定制转换表。普通用户可以在Wikipedia:繁简体转换请求提出修改转换表的建议。定制转换表可用来修正系统默认转换表的错误。这些页面可以象其他页面一样编写,但是描述转换关系须依以下格式:

 皇后 => 皇后;
 波斯尼亚 => 波士尼亞;
 萨拉热窝 => 塞拉耶佛  // Sarajevo 的翻译;
 ...
 

为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,注意每条转换关系要以“;”终止。

Conversiontable/zh-cn页面用于向zh-cn的转换,Conversiontable/zh-tw页面用于向zh-tw的转换,等等。

这些页面更新后,效果并不一定会即时显示出来,因为有些页面可能放在页面缓存里。要看即时效果可以用编辑预览功能。

-{}-标记

例如:“张国荣曾在英国利兹大学学习。”所用的-{}-标记是[[利兹大學|-{zh:利兹;zh-hans:利兹;zh-hk:列斯;zh-tw:里茲}-大学]]

参见本页“防止自动转换一段文字的标签”。

-{}-标记现可完整转换链接、模板、图像。转换HTML属性请使用{{lan}}。

源代码一般不转换

大部分编者录入系统的文章内容,包括文字和维基语法等等,在此称为源代码。维基系统通常会保留完整不变的源代码,不会自动转换源代码。

断词问题——自动转换程序常见的问题

注意:中文维基百科不保证用字模式自动转换程序和内容的准确度。用字模式自动转换并不一定正确,甚至可以说是各种自动转换中问题最多的。

转换程序用最简单的“最大匹配法”来转换,会导致以下错误:假设转换表有一对应关系为

内存 => 記憶體

现转换以下句子

人体内存在很多微生物

基于最大匹配,系统会转换“内存”,得到“記憶體”。整个句子将会被错误地转换成

人體記憶體在很多微生物

解决这个问题的根本方法是用智能的分词匹配,将上述句子先拆分为

人体 内 存在 很多 微生物

然后再单独转换每个词。

在有这种智能的分词系统出现前有两种方法修正上述错误:

  1. 人手将涉及分词错误的词分开:人体内-{}-存在很多微生物
  2. 将涉及分词错误的多个词作为整体加到定制转换表里,如“体内存在 => 體內存在”。(注:当前只有管理员能编辑转换表,一般人可以向管理员提出申请。)

这就是分词的错误。阅读本百科时请多加注意。遇到可疑的部分可以前往编辑页面去查源代码,或是多多留意不同用字模式之间的转换关系,以养成自行“反转换”的能力。

控制自动转换的代码

出于特殊的需要,可以用以下的语法设置不自动转换,或是“人手转换”

设置了所谓“人手转换”,其实维基系统仍然会在阅读者使用时根据系统默认转换表作自动转换,但是这时系统还会根据编者在源码中指定(增添)的方式作转换,并且将编者的方式优先排在转换表所列出的方式之前。也就是由编者自行增添转换方式。

常用的转换工具语法

  • 防止自动转换一段文字的标签
    -{文字}-
    效果:文字
    对于-{}-中的文字为转换规则(如“zh:中文”),但又希望保持原样,可以用:
    -{R|文字}-
    效果:文字
  • 防止自动转换一段文字整体的标签
    文-{}-字
    但分隔在-{}-两侧的文字仍会转换。简单来说是切断文字,分别转换。
    可用于希望保留地区词用法但依然转换简繁的场合,通过打断词语使全局转换规则不能识别希望保留的地区词。
    效果:
    繁体:舊-{}-金山,香港稱-{三藩市}-。
    简体:旧-{}-金山,香港称-{三藩市}-。
  • 人手转换一段文字的标签(局部自行增添转换方式标签):
    -{zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字4
  • 全文人手转换标签(全面自行增添转换方式标签):
    -{A|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字4
  • 隐藏式全文人手转换标签(全面自行增添转换方式标签):
    -{H|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字4
  • 全文人手删除转换标签(从全局转换表中删除某个规则,在该页面中不再以该规则转换):
    -{-|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:文字1
  • 条目标题人手转换标签
    -{T|文字}-
    -{T|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
  • 转换规则描述标签(将该规则用人易读的方式显示出来):
    -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;}-
    效果:原文:文字1;简体:文字2;繁體:文字3;大陆:文字4;臺灣:文字5;香港:文字6;新加坡:文字7;澳門:文字8;
  • 用字模式名称标签(将某种语言的代码转换成文字描述):
    -{N|zh-cn}-
    效果:大陆
  • 仅转换指定语言
    -{zh-hans;zh-hant|文字}-
    效果:文字
    若为zh-hans;zh-hant则显示转换后的文字,否则单纯显示不转换的文字。有沿溯(fallback)的限制,MediaWiki 1.15新增功能。此功能可用于需要避免地区词转换,但允许繁简转换的场合。比如{{Infobox Film}}中的各地片名部分。
  • 全文停用自动转换
    __NOCC____NOCONTENTCONVERT__
  • 条目标题停用自动转换
    __NOTC__或__NOTITLECONVERT__

条目标题

有时文章标题不需要转换,如维基词典里的单字,或《计算机世界报》之类的专有名词。在这情况下,可以在文中加__NOTC____NOTITLECONVERT__(注意前后都是两道下划线)来防止转换标题。然而,在中文维基百科,由于可能的简繁不同体问题(如“计算机世界报”和“計算機世界報”),我们不推荐使用这两个标签,而推荐使用下文中的“-{T|}-”转换。

注意:这标记应放在文章开头。

此外,MediaWiki支持全站停用标题转换。某个wiki站点要停用所有的标题转换(但启用正文转换),可在LocalSettings.php中设置$wgDisableTitleConversion = True;

有时一篇文章的标题里,可能含有各地区认知不同或翻译方式差异很大的辞汇,但因为某些理由不适合通过修改转换表来达成自动转换的目的,通常是因为一些常用字。如果贸然修改转换表,可能会造成更多地方产生错误。这种情况下可以有两种方法处理,我们推荐后一种:

  1. 在文章内使用标题转换来指明标题的正确显示:-{T|标题}--{T|zh:中文用字; zh-hans:简体用字; zh-sg:新加坡用字}-
  2. 在文章内使用全文人手转换:-{A|标题}--{A|zh:中文用字; zh-hans:简体用字; zh-sg:新加坡用字}-

实例:美国政治家John Kerry分别有“约翰·克里”、“約翰·凱利”与“約翰·克里”的不同译名,但如果在转换表中互换“克里<=>凱利”,那么欧洲地名“克里米亚”与“克里姆林宫”将会变成“凱利米亚”与“凱利姆林宫”的错误情况,为了避免制造更多的混乱,这情况比较适合在约翰·克里的条目中以人手转换标签修正标题与内文部分的相关译名。

注意:该标记仅仅是指明文章显示时对标题的转换,而不能自动处理链接时的转换。所以使用该标记时切记要通过重定向将各种用字模式的同一标题指向该文章。如约翰·凯利

全文停用自动转换

有时通篇文章都需要不转换,例如讨论繁体/简体的文章。在这情况下,可在文中加__NOCC____NOCONTENTCONVERT__(注意前后都是两条底线)来防止转换内容。不过,在中文维基百科,为了便于各地读者阅读,我们不建议禁止除字词转换相关页面以外页面的全文自动转换。

注意:这标记要放在文章开头。

自动转换的能力范围

本百科很多页面都可自动转换。但是仍有很多例外。例如最近更新页面Special:Recentchanges这样的特殊页面,就有一部分是不转换的。

参见Wikipedia:什么是条目

页面分类

当前自动转换计算机程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。因此除非特别指定,否则条目标题或是子分类标题的分类是根据经过自动转换之后的结果来分类。然而在此的自动转换和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

实例:美国政治人物John Kerry分别有“约翰·克里”、“約翰·克里”与“約翰·凱利”的不同译名。译名的关系已加入转换表,而条目的源代码中并没有特别指定不转换,所以阅读者使用维基系统时,并非直接阅读源代码,而是由系统将源代码自动转换成合适的形式。但是在页面分类中的自动转换和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

在分类页Category:美国政治人物之中,如果读者选择中国大陆用字新加坡用字模式,将看到约翰·克里的条目归类在“约”字之下的约翰·克里:

而选择台湾用字香港用字的读者则会看到这条目归类在繁体的“約”字之下,然而条目名称是約翰·凱利:

子分类也是一样。

软件问题

2006年1月开始出现一个问题,可能与新版本的MediaWiki有关。只要是分类名繁体对简体,条目或子分类就会从母分类消失,但是条目或子分类页经过任何编辑之后又会恢复,但系统下一次的链接更新时又会消失。另外,分类是不可使用重定向功能的。

参看:页面分类

这一问题已在2009年2月修复,但分类仍不可使用重定向功能。

内部链接、URL、重定向与搜索

虽然源代码一般不做转换。只有程序产生出来的页面有经过转换。然而读者收到的页面上,在维基系统之内的“内部链接”(不是外部链接或普通的URL,参见Help:链接),并不是由源代码决定,是由程序影响。

同上例:从2004年3月8日2005年3月26日之前,维基百科上面只有约翰·克里条目,而没有台湾用字模式的約翰·凱利条目,也没有将“約翰·凱利”重定向至约翰·克里。这段时间如果在源代码中有[[約翰·凱利]]这段代码的话,那么:
  • 如果有人是用“不转换”模式来浏览的话,那么可以收到连往“约翰·克里”页面的“約翰·凱利”(系统会在用字模式自动转换之后自动加上连到“约翰·克里”的链接)。
  • 如果有人是用“不转换”模式来浏览的话,那么会收到有待编辑的“約翰·凱利”(因为系统直接连到当时什么都没有的“約翰·凱利”)。

用字自动转换电脑程序的能力范围不包括维基百科的URL与搜索功能。百科的系统不会转换URL中汉字(有时是Punycode的代号形式)或录入搜索功能的查询字符串。

同一例:这段时间,“約翰·凱利”无论是条目名称或是其相关的URL(例如https://wiki.kfd.me/wiki/約翰·凱利)都是空的。直到2005年3月26日Zhengzhu将“約翰·凱利”重定向至约翰·克里約翰·凱利這個條目,以及相关的URL才有内容。

重定向页的内容不会受到自动转换电脑程序影响。

同一例:Zhengzhu所加入的重定向代码如下:
#REDIRECT [[约翰·克里]]
这并不受自动转换电脑程序影响。请看https://....title=約翰·凱利&redirect=no&variant=zh-tw

本百科的条目名称搜索(“进入”)受到自动转换电脑程序影响。

本百科的条目全文搜索(“搜索”)不会受到自动转换电脑程序影响。

本百科之外的搜索引擎Google可能有自己的自动转换电脑程序。当前已知搜索时会作简单的繁简转换。当需要创建繁简重定向页的时候,创建新条目的方式往往无法奏效。

如何创建繁简重定向页

登录的用户可以使用移动页面功能创建繁简重定向页。比方说,假设现在有名为“沈阳市”的条目,而你想创建从“瀋陽市”到“沈阳市”的重定向页就要移动两次:

  1. 将“沈阳市”移动到“瀋陽市”。
  2. 将“瀋陽市”移动到“沈阳市”。

其结果将是“沈阳市”的条目维持原状,而“瀋陽市”成为指向“沈阳市”的重定向页。

第二次移动看似多余,但会带来两个好处:

  • 对该条目历来参与者的尊重——未经讨论贸然改变条目名称是不恰当行为
  • 一旦条目名称改变,原本指向该条目的链接虽会以重定向的方式指向正确的条目,但长期来说所有重定向链接都应该用直接链接取代。修改所有这些链接会增加维基百科的维护成本(尤其是其他语言的维基百科也有可能通过跨语言链接连向这些页面),比起此种额外负担,将条目保持原有名称会是更有效率的作法。

另一种较简单的办法是在网址列输入https://wiki.kfd.me/wiki/瀋陽市?action=edit,这样您就可以直接创建重定向页,而不必移动两次。

编辑一般文章时的注意事项

  • 若无正当理由,请勿将文中繁体转成简体,反之亦然,这种操作属于繁简破坏

请注意:若您的浏览器安装了同文堂等繁简转换软件或可以中文繁简转换的移动应用程序,请在编辑时将其关闭或移除。

  • 避免繁简混杂、或以繁/简体打出简/繁体用词,文章内容及标题(包括分类标题)必须全简体或繁体,否则可能不会正确转换,如“中國历史”(正确写法为“中国历史”或“中國歷史”)和“操作系統”(正确写法为“作業系統”或“操作系统”)。如果为单纯繁简转换(如前者),尚可能成功;但若为使用繁体文字打出简体词汇(如后者),则转换通常注定失败。尤其后者的情况基本上属于繁简破坏的一种。因此,除非十分了解繁简差异,否则在编辑极易出现繁简差异的条目(例如电脑相关的条目)时,请简体中文用户不要使用繁体字录入、繁体中文用户不要使用简体字录入。
  • 以前许多事物有繁简两版本的不同文章来介绍。现在需要人手将这些文章合并起来。具体请参看Wikipedia:繁简处理

参见