维基百科:关于改革字体、地区词转换功能的调查
| ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
|
此页面目前处于闲置状态,仅供历史参考而保留。 此页面最后更新于2020年8月3日 (一) 22:28 (UTC)。此页面的内容可能已无明确的共识支持,或是不再与讨论的主题相关。若您希望重启讨论,请至互助客栈寻求更广泛的意见。 |
最新更改
- 共识的第一条按照意见修改了一下
- 共识的第二条按照意见修改了一下
- 比较详细的技术策略出炉了
动态监视
背景
中文维基的Wikipedia:繁简处理问题是历史问题,出自繁简两个版本的合并过程。在这个过程中,制定了繁简转换表使得繁简字体转换实现了相当的自动化,深受欢迎。然而,一些地区词造成的同义词分歧(打印机、印表機)仍然没有得到解决,因此中文维基采用了一个值得质疑的策略,就是用繁简转换器的词替换功能来同时实现繁、简体版之间的同义词替换。不料,繁体的常规使用者还至少分港台用户两种,内部依然存在同义词分歧,于是使用繁简体转换器的超载词替换功能,发展出除简体(zh-cn,其实是中国大陆简体)及繁体(zh-hant)外的三个字词转换表:台湾正体(zh-tw)、香港繁体(zh-hk)、新加坡简体(zh-sg)。
2006年11月左右,港澳繁体(zh-hk)标签在依投票结果新增在页顶,而台湾正体(zh-tw)标签则代替了原来的繁体(zh-tw)标签,但这繁体版事实上在未登入下被预设为使用zh-tw,因此只是名字上的变更。故此,实际上对于繁体版的注册用户港澳繁体版和台湾正体早已在参数设置中设有。不久,马新简体也被提出要求显示在页顶标签中,自此在页顶多了大陆简体以外的简体选择。目前,中文维基百科一共有六种版本,除上述五种版本,还有源文件作为不转换(zh)的第六种版本,而繁体(zh-hant)一直还在页顶标签中隐藏着。
问题
虽然港澳繁体版建立之前有过一次投票,那次投票的局限性和操作方式意味着许多制造出来的问题没有讨论也没有解决。争论得最激烈的问题不外乎于中文维基是否应该有多种版本。虽然Wikipedia:繁简处理里承认
共识:我们的最终目标是:取消过去的繁简分立体系,每个条目只保留一个版本,并通过电脑程序自动转换繁简体。
但随着用户要求替换的词和词组越来越多、地域针对性越来越强,合并的进程已不存在,“一个版本”的概念也已经模糊,目前只能说每个条目有一个“不转换”的源文件。另一方面,不同的地区确实有一些特殊的习惯用词或官方译词,在维基百科上同时出现时容易产生有关权威问题的政治纠纷。除此之外还有更微妙的众多问题,详见:1、2、3。
分析
简体和繁体的转换是纯字体转换,仅仅涉及技术问题。区域词替换则是内容创造和修改的问题。两者的混淆使上述问题复杂化,不透明化,讨论摸不到核心,后果是初衷和结局牛头不对马嘴。字体转换和区域词替换显然是垂直的,因此即使只为了方便管理也有必要在概念上、技术上、届面上把两者区分开来。详见这里。
进一步分析
繁简体转换问题切割开以后,剩下来的区域词分歧可以总结出以下几种类型,大多和外来语有关,但不全是:
- 非专有名词
- 偏好分歧
- 词义分歧
- 专有名词
- 音译分歧
- 权威分歧
上述分类有少量重叠。
共识
经过数次讨论,得出以下的观点,希望能成为阶段性的共识:
- 设立繁简体“公版”,也就是恢复没有地区词替换的源文件繁简体版。
理由:源文件作为中文维基的标准版,需要有方式呈现出无显著地区特征的繁简字体资料。
- 审查全版本替换表的内容,逐渐脱离对该表的依赖。
理由:全版本替换的技术不成熟,漏洞百出,影响面广,各种改动牵涉太多,所以无法有效维护。同时,由于编辑规则不同于文章(管理员必须介入),常规的“维基过程”失效。是否要保留一小部分的全版本替换词应该商讨一下,但这个表应该慎用,里面的每个词都应该商讨有没有必要全版本转换(即为什么不能用标签达到同样的效果)。
- 规范内文地区词替换标签的使用原则。
理由:内文替换标签(noteA等)是文章内容的一部分,所以必须接受“维基过程”,包括出现争议时通过讨论来解决(这里的争议包括某篇文章是否用替换标签,在哪里用,用什么词,等等)。制定一些原则可以使这个过程更客观、透明。
阅览Wikipedia:繁简分歧词表是讨论这些问题的良好起点。
- 制定地区名存亡的标准。
理由:与其给每一个要求的地区一块新版面,或禁止添加新版面,不如用客观标准来决定增加或撤销一个地区名。
实践
以下是一个界面的建议。简/繁是两个连接,类似以前的简/繁转换连接,通过纯字体转换表把当前显示的页面用全简体或全繁体呈现。工具栏里可以选择地区词的替换。
“技术上的问题没想像得那么难,都可以用现有的技术和表完成(某些表需要整理);只要谁授我权,我绝对乐意去实现。举个例子,依照上图,如果用户选择简体,但用台湾区域词替换,自动转变的步骤应该如下:(1)把源文件(也就是“不转换”版的内文)用简转繁纯字体转换转成全繁体(包括内文的所有标签,都一并转换),被特殊escape的段落不转换;(2)从源文里抽取(zh;zh-cn;zh-tw;...)标签,把zh的词选替换成zh-tw的词选,被特殊escape的段落不替换;(3)把第2步的结果用繁转简纯字体转换成全简体。TTTT 07:06 2007年2月2日 (UTC) ”
“目前的转换我问过mountain,有实现繁简与地区分开的基础,但这类改动要小心从事。—自由主义者 ☎ 2007年2月2日10:37 (UTC+8 2月2日18:37) ”
意见
请表示同意或不同意,并欢迎写下你的意见,或在下面补充其他信息。
(+)赞成改革,我认为情况真的很糟糕,港澳繁体、马新简体、台湾正体............再迟一点可能要“台湾本省正体”和“台湾外省正体”,或者“马”、“新”又是要“宣告独立”,乱作一团。当然,无可否认的是,地区用字的歧义,有时真的会严重影响理解。但是,分得太细致,只会增加编辑的困难,而且不必要地搞“地区词”,不利知识传播。我认为世界上没十分十美,建议:
- 应该设“使用内文地区词替换标签的常规”,要包括以下数点:
- 编者应尽可能使用所有中文社区都能理解的词汇,尽量避免过分地区化的用语,而有关词汇可在内文列出参考,但不应该使用“替换标签”。
- 如果原文的词汇会使某地区的读者产生“明显的理解困难”,就可使用“替换标签”,同时简略解释原因。换言之,要是原文词汇能够被理解的,即使用字不够“地区化”,都不需使用“替换标签”。
- 如果同一条目有多组字汇是各地相通的话,则应以条目创建者的字汇为优先使用。
- 如出现一些情况,非关理解问题,例如哪一个字汇比较权威、比较政治正确之类,应该透过讨论解决,不应以替换功能解决。
- 假若有需要使用“内文地区词替换标签”,而“地区用词”本身亦出现争议时(例如“地区词汇”亦多个版本的时候),应以讨论解决,选取比较常用那的一个。
- 我相信华文区之间,字汇完全不相通情况并非多数,很多更可以避免,所以我认为只需保留一个“地区用字”标签就够,毋须再细分,如果技术可行的话,这个“地区用字”标签只需在条目里出现 A 标签时显示。只要 A 标签能识别浏览器的设定,要做到地区用字替换并非难事。我认为这是平衡各方意见的做法。Srr 21:44 2007年2月3日 (UTC)Srr 18:25 2007年2月5日 (UTC)
(+)赞成——附和以上意见。守夜者 19:05 2007年2月6日 (UTC)
部分(+)赞成:仅反对“规范内文地区词替换标签的使用规则。”,应改为“有争议时必须经过讨论”。现在的维基规则中,没有规定增加或删除内容前都需要经过讨论,而是经过一轮回退后,应该在讨论页进行讨论以寻求共识。因此我认为应改为“有争议时必须经过讨论”。--Jnlin(讨论) 01:14 2007年2月5日 (UTC)
(+)支持,我觉得地区用词必定要和字体分开,不然就是只留繁简体,只使用地区不同用字标签。但是我觉得替换标签总是不能不要,台湾人看到“閃存盘”或香港人看到“計程車”毕竟还是会觉得怪怪的。我是建议较大分歧的地区用句使用用词替换标签,而一些地区性不同用字例如里.裡.裏尽量避免输入,我建议是使用分岐比较小的裡。而且还要定常用字汇清单,总不能让“天后宫”变成“天後宫”这一类糗事发生。--陋室◈(亭中茶话) 09:32 2007年2月27日 (UTC)
- (-)反对Jnlin之意见。规范内文地区词替换标签的常规,不代表毋需经过讨论,反而能有所遵从,讨论起上来更加有据,如果照Jnlin所讲,那么我们连wp:nc都可以不要了,凡事都在讨论页争论一番就可以。
- 我不赞成在中文维基使用地区用字,如果真的想要100%的地道用字,我认为应另立维基。但我要指出在Wikipedia:互助客栈/方针中一个错误的论述,就是“英文没地域中心”(Stewart),英文一样有地域中心,最起码有 ArE 跟 BrE 之分,文法不同,用字的拼法也不同,甚至是用另一个字,例如 “mail/post”、“aluminum/aluminium”、“subway/underground”等,但英文维基并没有所谓“内文地区词替换标签”,大家互相包容,没有人吵著说这是“搞大英语区整合”。当然, ArE 跟 BrE 交流比较多,所以就算写 aluminum 英国人也会明白,只是习惯上略有不同。我亦十分明白,中文区有一些译名、用字是全然不同,而且互不通用,的确会产生阅读的困难,所以内文地区词替换有实际需要。但我要强调一点,我指的“实际需要”是“当特定地区读者有理解困难”的时候。
- 而我认为“使用内文地区词替换标签的常规”可先处理(如切实执行,我可参与编写),因为就算经过Zhconversion.php转换,但似乎仍然可以透noteA这种“下层”标签替代。长远来说,我认为应全面消取Zhconversion.php中所有无关字体的转换,有需要的话应改用“内文地区词替换标签”,这样可以厘清“繁简”、“地区用字”的从属联系,而且比较有弹性,因为有时“地区用字”根本都没有统一标准,不少时候都是各说各的,例如马力欧。加上我要指出,地区词之间并非mutually exclusive,大家可以交流而互通,如果将地区用字编入Zhconversion.php,当社会文化有所转变的时候,就难以因时制宜。
- 致TTTT兄:我认为这样的分类,有互相重叠的地方,并不能清界定替换规则,所以我认为以“是否各地通用”作为原则,准则例如Google地区搜寻的结果或者主流媒体的用法等。界面设计方面,我认为TTTT提议的和现时的设计,都可以。Srr 08:48 2007年2月5日 (UTC)
- 那个分类本身不是为了界定替换规则的划分,纯属分析,看怎么把几种情况最大限度拆开。当然你说了用它作为起点也不是不可以,具体说可以建一个分析页面,有分歧词就先讨论属于哪种类型,然后填进去,再按照那种类型的规则行事。TTTT 09:22 2007年2月5日 (UTC)
- Srr, 问题在:很多时每一种用字(好 来 坞/ 荷 里 活 , 激 光 /雷 射。。。) 都是“地区用字”,分别只在流通量与流通地。---Hillgentleman | 书 15:08 2007年2月5日 (UTC)
- Hillgentleman, 问题只是你用了地域中心的心态,看那个原本通用的字不顺眼,觉得“不对等”而已。但我们写条目最重要是被所有中文的使用者理解,而不是将文章地域化。我赞成一些根本互不相通的译名使用替代,例如“宏”和“巨集”。就以你提这两个做例,我身为香港人,也明白好来坞(这个译名应是普通话的音译,香港懂普通话的人不少啊),香港迪士尼也有一间好来坞酒店。而激光和激光,我想在香港,使用率是不相伯仲。所以我认为两者都毋须用地区替代,在内文列出就够了。当然,用不用这功能,就是可以利用常规去讨论,维基过程一样存在,总好过一概而论,为地域化而地域化。Srr 15:43 2007年2月5日 (UTC)
- 请定义“地域中心心态”。----Hillgentleman | 书 16:00 2007年2月5日 (UTC)
- 毋须定义,只是一般的说话,我并不在说维基的“地域中心”方针,这不是我说话的重点。Srr 16:06 2007年2月5日 (UTC)
- Hillgentleman, 问题只是你用了地域中心的心态,看那个原本通用的字不顺眼,觉得“不对等”而已。但我们写条目最重要是被所有中文的使用者理解,而不是将文章地域化。我赞成一些根本互不相通的译名使用替代,例如“宏”和“巨集”。就以你提这两个做例,我身为香港人,也明白好来坞(这个译名应是普通话的音译,香港懂普通话的人不少啊),香港迪士尼也有一间好来坞酒店。而激光和激光,我想在香港,使用率是不相伯仲。所以我认为两者都毋须用地区替代,在内文列出就够了。当然,用不用这功能,就是可以利用常规去讨论,维基过程一样存在,总好过一概而论,为地域化而地域化。Srr 15:43 2007年2月5日 (UTC)
Srr, 请解释何谓“地域中心心态”。---Hillgentleman | 书 16:11 2007年2月5日 (UTC)
- Hillgentleman,阁下又不妨解释一下为何要我解释一下。请注意,我并非在说wikipedia:避免地域中心,“地域中心心态”不是重点,如果你觉得被冒犯,对不起,但建议你还是回归正题好吧。Srr 16:23 2007年2月5日 (UTC)
- Srr, 凡辩论均须开宗明义。已见多人提及“地域中心”;然而大家理解此词未必同。---Hillgentleman | 书 16:37 2007年2月5日 (UTC)
- 如果我要参与你这场诡辩的话,我会说:“请你解释为何辩论均须开宗明义,并定义何为‘开宗明义’。”然后一直诡辩下去。第一、我已经一再说明,我的说话中,“地域中心心态”不是重点,就算将上文“用了地域中心的心态,”完全删去,也不影响大意。“地域中心”是中文字,你不会不理解吧?我只是用一般人的准标来说,就是以地域的立场思考,总觉得中文维基一定要有地域之分,而不能共同,就是这样,讲不上定不定义,至于维基如何定义“地域中心”,请你问其他人。这是我最后一次回应所谓定义问题,再请你回归正题。我怕跟你讨论是我的一个错误。Srr 16:52 2007年2月5日 (UTC)
- Srr, 有人以为立转换功能属地域中心行为,有人认为反对转换功能属地域中心心态。若无一确切定义,双方不能沟通。--Hillgentleman | 书 16:58 2007年2月5日 (UTC)
- Hillgentleman,请见下TTTT 21:10 2007年2月5日 (UTC)。
- Srr误会我的意思了。当然可以对整体适用范围做限制,但不应该要求加上地区转换前必须在该条目讨论页讨论。--Jnlin(讨论) 17:20 2007年2月5日 (UTC)
- 不以为然,为何“不应该要求加上地区转换前必须在该条目讨论页讨论”?最起码需要解释原因,提供一些基本证据,处理方法根命名的争议没分别。地区词替换是一个与原文有明显冲突的改动,正如分拆条目前都需要有所讨论,解释原因。Srr 17:34 2007年2月5日 (UTC)
- 我觉得你们俩并不存在规范标签用法这一问题上的分歧,只是对修改维基页面应该先讨论还是后讨论有不同的理解。我的理解是,小修改可以先编辑,大修改(篇幅大、影响大、改标题等等)最好先讨论。其实用意就是有理由相信会引起大争议的还是先讨论,不然之后还是会出问题的,但尽量不妨碍大家的修改权,不然就有损开放性了。所以你们都有对的地方。TTTT 20:04 2007年2月5日 (UTC)
- 补充:例如现在的NPOV政策,若你觉得一个条目POV,则可以贴{{POV}},或是直接把你认为POV的文字改正。我认为转换也是一样:若你觉得需要转换(而且也符合整体适用的范围)那么就自行加上,不需在讨论页讨论;若你觉得不需要转换也可以拿掉标签,若有其他人不同意可以回退,这时就需要在讨论页讨论。--Jnlin(讨论) 17:28 2007年2月5日 (UTC)
- 挂上POV模板是需要解释原因的。要除下也是应该在共识之后,正如果我处理油鱼的分拆,我不会随便将标签拿掉,先商议方案再行动。Srr 17:34 2007年2月5日 (UTC)POV模板清楚写明:“挂上此模板的编辑者需在讨论页说明本文中立性有争议的原因。”Srr 17:50 2007年2月5日 (UTC)
- Srr, NPOV就要求多重观点。若原文本身为地区用语,再加入另一地用语将更充实。--Hillgentleman | 书 17:39 2007年2月5日 (UTC)
- 我不知道你说的“NPOV论点”是指何处,如果你是指User:Jnlin提出的例子,那明显误解。他提出的意思是指加入替换时毋须先讨论。如果你是指“不用替代功能就是违反NPOV”,这就是一个错误。第一、地区用字可透“重定向”连结,各地字眼,甚至没有地域争议的不同字眼都可以包容。第二、不用替换功能不代表不能列出地区用字,不同的用语一样能够反映,没有所谓充实不充实的情况。Srr 17:50 2007年2月5日 (UTC)
- 不以为然,为何“不应该要求加上地区转换前必须在该条目讨论页讨论”?最起码需要解释原因,提供一些基本证据,处理方法根命名的争议没分别。地区词替换是一个与原文有明显冲突的改动,正如分拆条目前都需要有所讨论,解释原因。Srr 17:34 2007年2月5日 (UTC)
- 我来处理POV条目的方式是,若我愿意(有能力)改为NPOV,则我会马上动手(方针“勇敢更新页面”)并解释原因;若我没有能力,我才会挂模板。所以也许我们两个人解决问题的方式不同,你习惯先讨论,而我习惯做了再说。只要每个人都善意假定(这也是方针),那么我的方法就不会有问题。所以我认为,我们只要抓大方向,真正有问题的转换一定会有维基人提出并改善,而不需要逐条目去讨论,这样太花时间。--Jnlin(讨论) 17:58 2007年2月5日 (UTC)
- 或许这样说,不一定要讨论七日,投票表决,最起提供一些简单原因,我相信这不算花时间吧?但是,如果连“地区用字”都有争议,就应该先讨论,后修改。我上面的提议依照你建议略略修改了。Srr 18:10 2007年2月5日 (UTC)
- 接受,但TTTT原本的提议也应该修改。另外,提供原因的地方不只讨论页,在编辑历史中也可以。--Jnlin(讨论) 18:15 2007年2月5日 (UTC)
我来回应一下Hillgentleman提出的几点看法(“有人认为设转换功能是地域中心,有人认为不设是地域中心”,“对等”)。
- 第一件事,转换功能本身设不设都无所谓地域中心或其他任何问题,只是技术,我不反对技术,主要看怎么用。
- 我觉得有必要明确“地域中心”的含义。我们来熟读Wikipedia:避免地域中心里的头一段,最后一句是“看起来好像是客观的文字实际可能已经包含了主观的意念,而这正是与维基的中立观点政策相违。”可见,地域中心的问题从根本上讲是POV(观点、立足点)问题的特殊化,“中立观点”原则也始终指导着这条原则,而不是什么词语对等的原则(事实上维基百科并没有这样的“对等”原则)。说得详细一点,避免地域中心就是避免偏向某一个地区的观点(对比NPOV避免偏向某一个群体),包含避免透过地域色彩的文字(描述、用词等等)暴露特定结论或偏向特定地域看事情的立足点。
- 用词涉及POV的例子很多也很容易理解,比如“打胎/杀胎/人工流产”。但用词(特别是标题)怎么才算涉及地域中心问题?举例,“尖阁岛/钓鱼岛”。必须选一项时有一定的规则和tiebreaker。除了中文维基的FAQ,还有英语维基里的先例和那里讨论留下来的FAQ,毕竟英语维基早就遇到类似问题了。什么用词不涉及地域中心?“打印机/印表机”(但不等于不涉及任何问题,见最后一点)。怎么判断每一个词?很简单,自审,“用词是否影响文章的结论?”如果不影响,就不存在POV,当然更不存在地域中心问题。
- 再论自动转换能不能解决真正的地域中心问题?答案是不可能的。(英语维基怎么没想到给中国来的IP都显示“钓鱼岛”,给日本来的IP都显示“尖阁岛”?)非但解决不了地域中心问题,还会制造更多,因为转换的潜台词就是推崇地域化不是吗?打个比方,香港版把“香港”转换成“本港”,大陆版把“中国”转换成“我国”,看上去很顺眼嘛,区域用词互相“尊重”不是吗!?再舒服不过了!而这些恰恰就是Wikipedia:避免地域中心里告诫不要用的例子!进一步,谁来防止“大陆”转换成“中国”,“台湾”转换成“中国台北”,甚至“陈水扁祖籍台南”转换成“陈水扁祖籍福建”或“陈水扁祖籍非洲”?怎么处理?现在不是问题以后就不是问题吗?现有的贡献者比较开明不这么做,明日的新贡献者不知道标签的由来只想着制造“本土”版就不会这么做吗?难道界面不需要清理一下,标签的用途不需要规范一下吗?所以才提议,所有的转换必须等同于修改内容,并接受“维基过程”,严防新技术的隐性功能被用来回避一系列维基原则。
- 有人说,99%的词都和避免地域中心无关联,转换又只会制造地域中心的问题,何必规范它,索性不转换了。但我觉得还是要保留它来服务表意文字的比较特殊的现象,就是在个别页面上存在阅读理解上的困难,特别是术语。虽然没那么严重,但我觉得还是合理的疑义。原则上我同意在这种情况用转换。其他情况的转换我的意见是,反对滥用(POV,frivolous,全版本转换,大段转换,或不经约束的转换),理由很简单,第一:滥用违反维基所有的规则;第二:滥用等于各筑篱笆墙,并促成版面“所有权”归地域“专家”的变相多版面趋势。非滥用又非混淆(比如官方命名差别,习惯用词差别等等)我虽然个人强烈认为没有必要,但原则上不赞成也不反对。TTTT 21:00 2007年2月5日 (UTC)
- 我认为各方的论点,基本上都已经反映,起码取得了一些妥协,相信是付诸实行的时候。如果再不做出一个起点来,人走茶凉,想改革就难了。我建议发起投票,先定下“繁简转换”和“地域惯用词汇”的方针。
以下是我建议的工作程序:
- 重写Wikipedia:繁简处理,并提升为正式方针。重新界定“繁简转换是字体上的转换,除了一些转换后会出现错误的词汇,例如“打斗”会正确变成“打斗”外,并不会包含各地域惯用的词汇替代”,“有关各地域惯用的词汇替代,应参考Wikipedia:地域惯用词汇的处理”。
- 增设Wikipedia:地域惯用词汇处理,并投票成为正式方针。主旨:“每个条目使用的字词,应尽可能被所有中文使用者所理解,而并非以地域分成多过版本。但随着各地的使用增加,维基发现不同地域,存在一些特殊的惯用和翻译词汇,故中文维基设置替代地域词汇的功能,如果原有条目的词汇会使某地区的读者产生明显的理解困难,便可使用替换功能。换言之,只要原有条目的词汇能被各地所理解,即使字词并非地域最惯用的,都不应使用替换功能。”(细则在上方已经达成一些小共识)
- 只要上两个方针定下来,随后的工作就有了根本,易做得多了。
- 重新按照TTTT兄的设计,配置界面,并定立“地区标签”的存亡标准。
- 修改Zhconversion.php,变成纯字体转换。
- 工程大致完成。
如果我建议得一些认同的话,我就可以开始编撰,之后发起投票表决。Srr 15:50 2007年2月6日 (UTC)
- 那就请你协助编拟一下。最近我有点忙:原本我想把这篇留在这里供更多人讨论一段时间的,但还是没太多人来发表意见(特别是原来要分地区的创始者们,似乎不感兴趣还是不常上网?),也许成为投票项目后会有更多人来,你就推进吧。TTTT 09:56 2007年2月7日 (UTC)
- 基本上每一个事项都没有必要用到投票才能解决问题吧?主要对于修改ZhConversion.php,收集有关的词汇是花费得最久时间的。在我的转换系统草稿中有一个草拟中的新转换方案,待收集足够的词汇时,便能透过Bugzilla提出有关中文字词转换系统的建议。还有,这个变更不是只只会影响维基百科计划,而定对MediaWiki软件作出修改,亦即是会影响到所有中文维基媒体的计划,同时这个变更亦可以为其它需要语言转换系统的wiki打下一个基础,如粤语维基和吴语维基等。--Shinjiman ⇔ ♨ 16:33 2007年2月6日 (UTC)
- 头两项我怕不投票,事后争议会更大,所以建议定为正式方针。至于Zhconversion.php修改,我明白是最花时间的,我也没有这些技术能力,所以只能建议放到最后。Srr 16:44 2007年2月6日 (UTC)
其实我一直看不懂,何谓“简繁公板”。--WiDE 17:00 2007年2月6日 (UTC)
- “简繁公板”也就是指,取消系统自动转换同义词的意思吗?--WiDE 03:12 2007年2月10日 (UTC)
- (:)回应:Srr,你大概看了我这句吧?!“或许华文本身便是一“种族中心”,中文本身就是“地域中心”,一些维基人应该去找英语、世界语这些“没地域中心”的地方。”不好意思,这句是我的气语,我有点控制不到情绪。因有提过“华文”一词有华人的语文的意思,“中文”一词就是只限中国的语文,我所指的“没地域中心”看见我加了括号吗?!事实是反语。
- 我的主张是的确地区用词转换是以地域为主的,但地域中心应该也有分好坏,过分的地域中心我也不支持,故此我们之前在繁简转换也出现过争议,但地区用词是一种较省时的做法去处理经常出现的不同地区用词。倒过来,与其每次手工转换为什么不自动转换?!还是你支持不转换?Stewart~恶龙 10:27 2007年2月7日 (UTC)
- 我倒想问你,为何一定要设纯地区用词页面?--真实事求是(☎) 10:34 2007年2月7日 (UTC)
- 看了源码以后我更确信大多转换是不必要的,举个例子,我看到了“方便面”、“速食面”、“泡面”、“即食面”、“快速面”之间的转换和“冷盘”、“冷菜”、“凉菜”之间的转换。动词、名词之间的混淆不说,(我晚上泡面吃=我晚上快速面吃?!),谁告诉我这有任何必要,谁看不懂任何一组请举手。TTTT 13:20 2007年2月7日 (UTC)
- 恶龙兄:对不起,我的确注意不到这是“反语”,我的理解是:你认为这些不认同转换的人,是“枉费大家的努力”,是“不切合各地的个别需要”,叫那些人“滚到”(当然有所夸张)英文、世界语这些没有“地域中心”的维基。我想指出只是:中英文这些应用人口多语言,自然有一些用字分歧,但只有中文维基这样愈分愈细,愈分愈复杂。(但我亦早说过,中文情况比较有一点特别)我强烈认为,这是中文维基,不是香港维基、星马维基、大陆维基、台湾维基,我本身反对这些转换功能,如果维基是我一个人话,我会同意“真实事求事兄”的处理,但有一些维基人指出了一些词汇差异,的确会明显影响阅,所以我提出保留这功能,但应该多加规范,没有需要的话都不使用,仅此而已。
- 我倒想问你,为何一定要设纯地区用词页面?--真实事求是(☎) 10:34 2007年2月7日 (UTC)
- 至于将地区用字抽出Zhconversion.php,相信是事在必行,因为如果Zhconversion.php不纯正的话,会影响其他mediawiki。Srr 11:23 2007年2月7日 (UTC)
- 确实有些词汇会影响阅读,你的设想是什么?
- 至于将地区用字抽出Zhconversion.php,相信是事在必行,因为如果Zhconversion.php不纯正的话,会影响其他mediawiki。Srr 11:23 2007年2月7日 (UTC)
- 多数人未言“一定”(记忆中只有阿仁用此语),惟词语转换功能好处多。词语转换功能亦非“纯地区用词”。若问有何好处, 真实事求事,你长久参与讨论,应知此问已有多人在WP:VPP、Wikipedia talk:马新简体标签显示民意调查、Wikipedia talk:投票/页顶自动转换标签答复。--Hillgentleman | 书 | 2007年02月07日( 三 ), 10:02:29. 10:45 2007年2月7日 (UTC)
- 正如Hillgentleman所说的,真实事求事已长久参与讨论,应该知道意图取消地区用词转换机制会遭大多数维基人反对的,这次就以限制地区用词转换的数量来达成其目标,甚至多次意图误导众人同异词数量不多,以说服众人扼杀他看不顺眼的地区用词转换机制。可是我们都知道,正因为各地区的不同用词有碍读者,强迫读者接受异地用词也易起地域中心的争议,因此在会有zh-tw, zh-hk, zh-sg的出现。意图取消或限制这行之有效的机制,并强迫读者接受个别人士定出来的统一用词,对维基来说不单是一个倒退,更是一种绀制读者思想的行为,绝对不可得逞。不管怎么说,地区用词转换机制已成定局,然而有人却总是空口说白话,也不找找以前的讨论来看,强指他人已经默认他个人的建议,简单来说就是偏要找地区用词转换机制的麻烦。
无论如何,地区用词转换机制必须存在,也不可以试图以部分人的主观意见来挑选哪个用词应否转换。繁简公板是一个很好建议,我非常赞成,但不能因为设立了繁简公板便取消或限制地区用词转换机制。纵观今后维基的发展,地区用词转换机制与繁简公板并存是事在必行的。 --kknews 14:15 2007年2月9日 (UTC)
- 正如Hillgentleman所说的,真实事求事已长久参与讨论,应该知道意图取消地区用词转换机制会遭大多数维基人反对的,这次就以限制地区用词转换的数量来达成其目标,甚至多次意图误导众人同异词数量不多,以说服众人扼杀他看不顺眼的地区用词转换机制。可是我们都知道,正因为各地区的不同用词有碍读者,强迫读者接受异地用词也易起地域中心的争议,因此在会有zh-tw, zh-hk, zh-sg的出现。意图取消或限制这行之有效的机制,并强迫读者接受个别人士定出来的统一用词,对维基来说不单是一个倒退,更是一种绀制读者思想的行为,绝对不可得逞。不管怎么说,地区用词转换机制已成定局,然而有人却总是空口说白话,也不找找以前的讨论来看,强指他人已经默认他个人的建议,简单来说就是偏要找地区用词转换机制的麻烦。
- 同意 kknews 的说法,赞成地区用词转换机制与繁简公板并存。--Jnlin(讨论) 14:49 2007年2月9日 (UTC)
既然无人反对,就继续推行计划
维基的精神是鼓励以讨论解决事情的,而投票是讨论不出共识时不得已的做法,这点在wikipedia:投票中有说明,现在既然反对者不发表意见,我看等同于默认了,各种计划就继续推行吧,触到痒处他们自会发表意见的,无需顾虑此事。--真实事求是(☎) 15:22 2007年2月8日 (UTC)
- 真实事求是,你多次重复同一观点。已有多人反对。--Hillgentleman | 书 | 2007年02月09日( 五 ), 02:02:03.
- 我不了解多次重复同一观点有何错误?既然有需要重复,那就重复,而且在这里我没有说过同样的话,那是在另外的讨论页说的,这样也算重复?我这里是回应上面TTTT的谈话,他要设投票,我认为不必,是以说明。请给出那一条维基规则列明不可重复观点?若没有相关规则我倒要质疑你为何干涉我的言论自由?
请User:真实事求是不要在讨论的中间插入全新的章节。另外上面所列的办法里,地区标签的退场机制不见完备、地区标签删除后会对用词转换标签(如{{noteA}})造成什么影响等,都应该详细说明。另外,地区用词必然会存在,关于地区标签和简正/繁体标签的共识中也多次论及,只要没有完善的解决办法,就不应该贸然行动。--RalfX(议) 04:14 2007年2月9日 (UTC)
- 这不是全新,完全无关的章节,而是看到上面TTTT认为需要设投票而做出的解释,另开章节也是为了避免与其他的讨论混杂在一起,弄乱了焦点,也请列明到底那一条维基规则有说不可列全新章节?如果没有我质疑你干涉我的言论自由。既然有反对意见,为何不在此讨论,我怀疑你们要以不理不睬的态度让事情不了了之,这是非常恶劣的。--真实事求是(☎) 10:03 2007年2月9日 (UTC)
现在的共识应该是TTTT兄提出的四点吧。就我的认知中,这个共识并不删除地区标签,只是跟繁简体转换分开。现在要讨论的应该是地区标签的增加与移除规则,以及规定使用何时可以在条目内文中使用用词转换标签(如{{noteA}})。使用用词转换标签的大原则Srr兄已经列出。--Jnlin(讨论) 14:44 2007年2月9日 (UTC)
- 不消除地区分页无法解决将来地区标签越来越多的问题,而且简繁公版加上地区用词分页管理会有困难,我也认为中文同义词的问题根本就是很小很小的问题,我的还是认为应该完全取消地区分页,我可以算是激进派,这立场是很坚定的,难以改变,我会尊重大家的选择,但若以后有机会也会继续发表不满。--真实事求是(☎) 14:51 2007年2月11日 (UTC)
近中远程的规划未妥使得民心不安,现在下方的第一步已经有人反对了。--RalfX(议) 03:13 2007年2月10日 (UTC)
- 当仔细讨论,我现实生活繁忙,难以在此进行详细的讨论,既然事情已上轨道,我长久以来的讨论算是有了进展,以后将专心我的工作,较少上来这里。--真实事求是(☎) 14:51 2007年2月11日 (UTC)
第一步:改写Wikipedia:繁简处理
似乎在这里的朋友都认同“简繁处理”应与“地区惯用词汇替换”分开处理,那就应该先改写Wikipedia:繁简处理。因为现时的方针是将“地区词汇替换”纳入“繁简处理”,而Wikipedia:繁简体转换请求仍不停处理“地区词汇替换”的请求,所以应先重写繁简处理,暂停接受有关“地区词自动替换”的请求,以免“一错再错”,直至系统问题得到解决和使用规则有共识为止。
建议在Wikipedia:繁简处理中,加入一节“新的共识”:
——旧有共识将地区词的分歧,纳入简繁转换系统处理,但其后发现这样的做法产生不少问题:基于以上各项理由,“繁简转换”应只是字体上的转换,除了一些转换后出错的词汇外,都不应有地区词的替代(例如简体的“打斗”会正确转换成繁体的“打鬥”)。而地区词的替代,如有必要的话,应额外建立机制解决,另订方针规范。由于修改系统需时,而且未有定案,故现时自动的繁简转换仍然包括部分地区词的替代,但将会逐步修正。
- 地区词与繁/简体并无必然关系,正如“香港繁体区”的人一样能以繁体书写“大陆简体区”常用的词汇。
- 维基百科的简繁转换系统,与其他维基姊妹计划共用,如果简繁转换系统包含地区词汇替换,可能会使其他维基的转换不准确,例如维基文库。
- 自动转换过程会出现一些“失误”,例如简体的“數位人士”,转换成繁体的时候会变成“數碼人士”,要透过其他技术解决,造成编辑上的困难。
这一个改动,短期内只会影响Wikipedia:繁简体转换请求,其他较具争议的功能(例如“马星简体”标签)暂不受影响,小弟建议,如果在 2月16日前没有反对意见,小弟将会根据上述内容改写Wikipedia:繁简处理,将以往的“共识”列为“旧有共识”,并在Wikipedia:繁简体转换请求中列明,暂不接受“地区词自动替换”的请求。Srr 17:46 2007年2月9日 (UTC)
- (+)支持--Jnlin(讨论) 17:48 2007年2月9日 (UTC)
- (-)反对。即使现在的系统不完美,但给阅读者的方便远大于困扰,也看不到迫切性,不应该贸然修改,Wikipedia:繁简处理作为系统的说明部分,也该暂时不要碰。如果要修改系统,我建议应该有人先如下面的意见所述,建立一个实验性的MediaWiki系统,模拟新转换环境下的中文维基,给所有维基人看看效果是否满意后,再投票决定采用与否,不被采用就改到采用为止。横竖维基的内容是开放的,大可以拷贝一份来测试,绝对不该一开始就去修改中文维基的软件(及相关说明)。我看过不少系统因为未经实验,就进行安装新硬件、新版本、加入新功能等工程,结果发生从性能下降到系统挂掉的事故。我可不想看到中文维基发生这样的危机。--Computor 22:56 2007年2月9日 (UTC)
- 你反对的和User:Srr上面提出的好像不是一回事啊,人家提出的是方针,没有改系统的步骤。到目前为止还没人提出影响维基用户的具体步骤。我在下面申请的页面都是维基百科不用的页面,源码一天两天也改不了。TTTT 23:24 2007年2月9日 (UTC)
- Wikipedia:繁简处理好像不是方针喔。它不在Category:维基百科方针与指引的任何子分类里面。我认为它是描述繁简转换如何运作的说明文件,只有当繁简转换系统修改了才应该作相应改动。--Computor 00:52 2007年2月10日 (UTC)
- 我原本想将“繁简转换”一并推动成为正式方针,只是基于为了更易获得共识,毋需事事投票,才没有这样做。而且我必须指出,你上文的观点极之误导,Wikipedia:繁简处理是描述系统发展方向,而非技术的说明,技术说明请到Help:中文维基百科的繁简处理,无论怎样,现时系统的发展方向,的确出现不少的逻辑问题,我认为这是事在必行,但并非要即时进行,技术上如何修改都未有定案,“结果发生从性能下降到系统挂掉的事故”的结论实在有点荒谬。我因应阁下的忧虑,略略再修改一下内容。我得见这里各位大体同意这个修改,如果阁下仍要维持“反对”的话,我在此请建议阁下发起投票。Srr 06:40 2007年2月10日 (UTC)
- Wikipedia:繁简处理好像不是方针喔。它不在Category:维基百科方针与指引的任何子分类里面。我认为它是描述繁简转换如何运作的说明文件,只有当繁简转换系统修改了才应该作相应改动。--Computor 00:52 2007年2月10日 (UTC)
- 要不然先写个子页面或是临时页面,等到系统修改后再移动过去?--Jnlin(讨论) 06:12 2007年2月10日 (UTC)
- 这就是我的意思!同意。--Computor 13:54 2007年2月10日 (UTC)
- 并不可行,我建议改写有两个目的:一、先停止地区词自动转换的请求,以免其他人的努力再白费。二、订定共识,为大家日后的工作提供依据。这不应该是所谓“临时共识”,否则以上两点都会变得无凭无据。更重要的是,现时我不会将“繁简处理”申请提升为“正式方针”,你的忧虑根本不存在。Srr 14:55 2007年2月10日 (UTC)
- (:)回应(一)不应该停止地区词自动转换的请求。新系统投入运作遥遥无期,在此其间,可能又有地区名字相异的事物出现(例如桌球一词在香港指士碌架,在台湾指乒乓球),为了确保不同地区的读者能正确了解这些事物,应该暂时保留繁简转换中的地区词自动转换,直到新系统正常运作。何况现在的转换标签还是有地区名在里面(例如港澳、马新),令使用者有合理期望系统会替他们转换地区用词。如果要关闭Wikipedia:繁简体转换请求,应该先把那些标签改名(虽然这是另外一个争议剧烈的提案,本人不会提出),免得读者误会。(二)既然不是方针,不会马上影响维基的运作,可以试试修改,但请注明阁下加上的是关于将来的计划,尚未实行,以免读者和现在的情况混淆。--Computor 17:02 2007年2月10日 (UTC)
- (:)回应我不认同Computor提出的几点理由,觉得他的一些概念有严重的混淆。这使我更确信繁简转换一定要和词替换区分开来,不然如同Computor这样概念混淆的用户存在更多就使词替换方针永远不能独立地讨论和完善。Srr提出的正是关于词替换的方针,不涉及任何系统问题。Srr提出的对“繁简转换”页面的修改其实根本不是繁简转换的问题,而是词替换的方针问题,只是目前,两者的讨论都并存在那个页面上。在方针层面上,如果逐渐脱离全站替换是成立的新方针,那停止表里添加地区词是非常合理的做法。如果那个“桌球”的例子有必要替换,可以用标签。这取决于这个共识到底有没有。Computor不用担心系统何时投入运作,因为并不会影响到替换方针的改动。技术的增和减都为了服务方针,不是解决方针的场所,因此提出的系统修改方案可以实现各种意见,包括词替换方针不改的意见;但技术上留有这样的余地绝不等于替换方针应该不改,恰恰相反,它减少了改的阻力。
- (最后,建议你在任何页面上看到“桌球”时,不要无脑地加替换词,而依含义把它改成“乒乓球”或“台球”,然后祝贺你自己为中文维基百科解决了一些问题。如果想阐述“桌球”的多种意思,建议你参与中文维基词典的编辑。)TTTT 19:15 2007年2月10日 (UTC)
- 当局者迷,可能我真的混淆了。既然看到支持的人日多,我也没有扭转共识的可能。无论如何,这个决定是否明智,要待日后的实践检验。--Computor 20:50 2007年2月10日 (UTC)
- (:)回应(一)不应该停止地区词自动转换的请求。新系统投入运作遥遥无期,在此其间,可能又有地区名字相异的事物出现(例如桌球一词在香港指士碌架,在台湾指乒乓球),为了确保不同地区的读者能正确了解这些事物,应该暂时保留繁简转换中的地区词自动转换,直到新系统正常运作。何况现在的转换标签还是有地区名在里面(例如港澳、马新),令使用者有合理期望系统会替他们转换地区用词。如果要关闭Wikipedia:繁简体转换请求,应该先把那些标签改名(虽然这是另外一个争议剧烈的提案,本人不会提出),免得读者误会。(二)既然不是方针,不会马上影响维基的运作,可以试试修改,但请注明阁下加上的是关于将来的计划,尚未实行,以免读者和现在的情况混淆。--Computor 17:02 2007年2月10日 (UTC)
- 并不可行,我建议改写有两个目的:一、先停止地区词自动转换的请求,以免其他人的努力再白费。二、订定共识,为大家日后的工作提供依据。这不应该是所谓“临时共识”,否则以上两点都会变得无凭无据。更重要的是,现时我不会将“繁简处理”申请提升为“正式方针”,你的忧虑根本不存在。Srr 14:55 2007年2月10日 (UTC)
- 这就是我的意思!同意。--Computor 13:54 2007年2月10日 (UTC)
- 你反对的和User:Srr上面提出的好像不是一回事啊,人家提出的是方针,没有改系统的步骤。到目前为止还没人提出影响维基用户的具体步骤。我在下面申请的页面都是维基百科不用的页面,源码一天两天也改不了。TTTT 23:24 2007年2月9日 (UTC)
- (+)支持:“繁简处理”有必要和“地区词汇替换”分开运作。--RalfX(议) 03:21 2007年2月10日 (UTC)
- (+)支持:我认为分开是比较妥当的,我想大多数人之间的语言应该是可以沟通的。我想重点方向应是在于岐义的解决方法,若考量到转换词汇的量一大,想必对服务器与阅读都是种负担。但是名称的不同是否可以考虑尽量用Templates或重定向页面来处理会比较妥当呢?当然如果地区词汇真的很多,而有另外新增的需要时,我也同意如此做。Syn 12:49 2007年2月10日 (UTC)
- (+)支持。改写转换程式是迟早要做的事。Z先生没时间回来维基看看,只能靠我们自己接手。--百楽兎 15:45 2007年2月10日 (UTC)
- (+)支持,几天没来,发觉现在的讨论方向渐上轨道了,除了真实事求是兄的方案持对立状态外(但他好像支持手工转换?)。设立及发展繁简公板不是一件容易的事,希望大家能坚持及协助,这可能是中文维基百科的一大里程碑,希望日后能得益中文维基其他计划,以致整个wiki技术。目前对于技术方面可能还有疑问,但发展方向已比此前一致得多。Stewart~恶龙 19:00 2007年2月10日 (UTC)
- (+)支持,英语中的地区词比中文多得多了,也没见要设立各种版本.还是希望中文维基越简单越好.--Ksyrie 18:22 2007年2月11日 (UTC)
英语中的地区词比中文多得多了,也没见要设立各种版本.还是希望中文维基越简单越好.--Ksyrie 18:22 2007年2月11日 (UTC)
- (+)支持,我早就提议“繁简处理”有必要和“地区词汇替换”分开运作。在粤语,吴语文言之外另设立各种地区语言标签的作法和陈水扁的“正名”异曲同工,纯属庸人自扰。--民国九十六年 18:30 2007年2月12日 (UTC)
- (+)支持“繁简处理”和“地区词汇替换”分开运作这一点,但是我反对贸然将新系统投入实行或是立刻废除旧系统,应该有一段适用的期间。--あるがままでいい(talk) 11:25 2007年2月13日 (UTC)
多谢支持,已就共识修改Wikipedia:繁简处理和Wikipedia:繁简体转换请求。Srr 05:46 2007年2月16日 (UTC)
疑问
- 对不起,我可否请问一下,为何经验比较丰富,相当活跃的维基管理员或行政员(如书生兄或大山兄或WING兄),对此议题都没有任何发言?我想知道,他们的态度是如何?我此疑问没有任何动机,我认为较捻熟维基事务的他们态度或意见,对此有很大助益,也可让这工作少走好几趟冤枉路。另外,我有个不情之请,从TTTT熟悉维基事务的口吻,我擅自推断(如有冒犯请多多包涵)他应是资深维基人,我想,如果他是某位资深维基人的马甲,能否示出其他人或许较熟悉的其他账号?--winertai 01:45 2007年2月11日 (UTC)
可能来晚了,但请让我为共识一节给些意见。首先是繁简公版,个人没什么意见,反正是技术上做得到,而且有人想用。但想澄清,繁简公版并不是“无地区特征的资料”。因为世界上总有一些字是完全没有任何人都看得懂的用词的,即是说,无论用哪个词,都总是有些人看不懂,即是总会有地区特征,只是可能是多数地区的特征而已。于是结论就是,“繁简公版”只能建立出较少地区特征的资料,要完全脱离地区特征,是不可能的。希望共识一段可以改写成符合这事实。
另外是地区名存亡的标准,我觉得现时技术支援的四个已经足够,因为只有这四个地区能够有组织性地确认用词的标准,个人觉得不会有第五个地区吧。有些维基人说港澳用词及新马用词会惹来其他地区的华裔人要求有自己的地区用词版本,但实际上他们的用词只会是复制自这四个地区,应该未有自行造词的能力吧。-- Cosferia(讨论) 05:19 2007年2月11日 (UTC)
- 无所谓来晚了,讨论的大门是永远敞开的。我把“无地区特征”改了一下。TTTT 07:32 2007年2月11日 (UTC)
- 对不起,我只是一般用户。据我理解(有错请指出),“地区用词”出现的一部分问题是软件错误地转换将一些词,例如简体的“数位人士”,转换成繁体的时候会变成“数码人士”,是软件够不够聪明的问题?!如是否把“繁简转换”和“地区用词”分开,类似问题可以得到改善吗?作为一用户,改了之后,须按两次才得以前的可以一按即转的结果。
- 二:繁转简在技术上没有大问题,只是简转繁需用字库帮助作转换,“繁简转换”和“地区用词”分开可减抵字库增大的机会,这是否问题的重心?软件不够聪明才是问题的重心?!
- 三:小小意见:市面的“繁简转换”软件亦标榜包括地区用词换转的功能,看来是大方响,本人用过,结果不如理想,如果能改善地区用词换转的难题,真是中文之福,令大众以一种言语沟通而地区小众得到照顾。 --218.102.187.242 01:54 2007年2月16日 (UTC)
- —、这里是中文维基,照顾的对象是所中文使用者,而不是特定某几个地区的小众维基,如果阁下有兴趣的话,不妨下载一套维基,自己架站,你要多“小众”就有多“小众”。
- 二、软件永远都不会够聪明,现时并不存在完美转换的技术。
- 三、阁下还是跟进一下上方和以往的讨论比较好。Srr 05:59 2007年2月16日 (UTC)
见此骂战页诡辩甚多,特转文一段:
“老师,究竟什么叫诡辩呢?”
老师稍稍考虑了一下,然后说:“有两个人到我这里来做客,一个人很干净,另一个很脏。我请这两个人洗澡,你们想想,他们两人中谁会洗呢?”
“那还用说,当然是那个脏人。”学生脱口而出。
“不对,是干净人,因为他养成了洗澡的习惯;脏人却认为没什么好洗的。再想想看,是谁洗澡了呢?”
“干净人”。两个青年改口说。
“不对,是脏人,因为他需要洗澡。”然后再次问道:“如此看来,我的客人中谁洗澡了呢?”
“脏人!”学生喊着重复了第一次的回答。
“又错了,当然是两个人都洗了,干净人有洗澡习惯,而脏人需要洗澡。怎么样,到底谁洗澡了呢?”
“那看来就是两人都洗了。”青年人犹豫不决地回答。
“不对,两人谁都没洗,因为脏人没有洗澡的习惯,干净人不需要洗澡。”
“有道理,但是我们究竟该怎样理解呢?”学生不满地说,“您讲的每次都不一样,而又总是对的!”
“正是如此。你们看,这就是诡辩。”66.150.99.144 17:18 2007年2月18日 (UTC)
其实简繁问题早就造成我的问题了,之前编写数码宝贝就搞了半天,在台铁车站列表就直接取消简繁转换,不知道有没有标签可以只取消动态转换但仍保留静态转换...--苍空 翔 有事点我 20:41 2007年2月25日 (UTC)
有时候还会需要临时取消手动转换,而各种转换的取消常要长达一个表格...--苍空 翔 有事点我 20:44 2007年2月25日 (UTC)
有没有办法指定一个词是某种语系,其他的让系统自动翻译,不然有时会出现混乱,有的词在不转换/简体/繁体会不一样...--苍空 翔 有事点我 17:09 2007年3月5日 (UTC)
关于手动/自动转换功能的共识
总体发展方向已经定下,接着是规范地区词转换功能。但我认有数点先要得到共识,之后再订下使用细则:
—、新系统是否保留全局自动转换?下方的技术讨论可供参考。 二、内文手动转换标签有三种(全页的{A|...}, 标题的{T|...}, 和单独转的{...}),不过noteA、noteT会改变的条目命名,这是否属于“命名常规”的管理范围?应如何处理?Srr 08:37 2007年2月23日 (UTC)
- 我认为还是要保留全局自动转换,但可以逐步改为单篇文章转换,亦即慢慢改为“有这个功能而不使用”。noteA不会改变条目命名,只有noteT会。目前的命名常规规定先到先得,其他重定向,或许可以加入“最通用命名”方针,但要注意“如何评估最通用”,不能以“人口多”之类的方针。--Jnlin(讨论) 08:41 2007年2月23日 (UTC)
- 赞同不是人口多的方针,而是以歧义少的方针。TTTT 22:47 2007年2月23日 (UTC)
- 地区词的转换部分,建议完全取消,这样才能避免条目说明中的引文、文献中的地区词连带被转换的现象。至于较难理解的地区词,如两岸医学用语等,则依Wikipedia:避免地域中心原则,于首次出现加上其他地方之等义用语。(条目名称可进一步讨论)译名则效法英文版Wikipedia,于初次出现时加上原文名称,以便于资料查找及他地人理解。RekishiEJ 08:30 2007年4月19日 (UTC)
标签名称参考
- 转换标签名称:
- MediaWiki:Variantname-zh-cn
- 大陆简体 最后编辑:Fdcn,摘要未说明任何原因
- MediaWiki:Variantname-zh-tw
- 台灣正體 Kevinhksouth据台湾维基人意见所选,香港投票原无此项
- 台灣正體 最后编辑:Ran,恢复了Shizhao去除的台湾字样
- MediaWiki:Variantname-zh-hk
- 港澳繁體 最后编辑:Kevinhksouth,香港标签投票主持人
- MediaWiki:Variantname-zh-sg
- 懂中文字的话,应该明白“未有定案”是什么意思吧?Srr 19:48 2007年2月18日 (UTC)
为了如此简单的问题竟然作了这么复杂持久的讨论,简直是不可思议。 以下就是解决方案:
- 完全关闭词汇转换功能。
- 任何情况下,一个字如果对应多个相对体字,这个字不转换。
- 外文专有名词直接写作外文或英文,或在译名后写出外文或英文。
- 在有分歧的名称后面说明别名,或采用更易于理解的名称。
- 改进转换功能,使能够对繁简体字混合的文章进行统一转换。
—Efeb 2007年4月21日 (六) 07:52 (UTC)
技术讨论
参考资料
TTTT 09:15 2007年2月8日 (UTC)
在Subversion上的
请提议者先看看在Subversion上的源码,有关的转换方式是在MediaWiki软件里本身做的,对标签的修改可以找管理员协助;但对转换方式,则须由用户修改源码,再由‘递交者’(Committer)应用已经修改好的源码,放上Subversion中,才能应用变更。在CVS时代中,懂汉语的‘递交者’只有User:Zhengzhu一人。而到了Subversion时代,并没有任何一位懂汉语的‘递交者’,包括Zhengzhu,这需要将请求放上Bugzilla中,在Bugzilla中的其它开发人员或‘递交者’亦未能熟悉汉语,可能会迟迟未能套用修改。--Shinjiman ⇔ ♨ 01:52 2007年2月4日 (UTC)
- 我不太懂编程语言,但我想问:程序上,“马星/大陆”、“港澳/台湾”是否归为繁简两类?再要仔细转换就要依靠“内文替换标签”?如果是的话,好像不一定要涉及MediaWiki软件源码修改,最起码Zhconversion.php不用改。Srr 07:27 2007年2月4日 (UTC)
- 依我的看法中,现时的Zhconversion.php档案里,zh-cn的转换文字包括了【简化字】以及【中国大陆字词】的转换;zh-tw的转换文字包括了【传统字】以及【台湾字词】的转换;zh-hk的转换文字包括了【香港字词】的转换;zh-sg的转换文字包括了【新加坡字词】的转换。另外在LanguageZh.php的内容中,zh-hk是直接继承了zh-tw转换表再上zh-hk转换表的内容;而zh-sg是直接继承了zh-cn转换表再上zh-sg转换表的内容。因为zh-cn以及zh-tw的部分包括了传统字与简化字的转换,故此要解决这个问题,则需要修改zhtable生成出来的Zhconversion.php以及在LanguageZh.php中的转换从属关系。--Shinjiman ⇔ ♨ 11:52 2007年2月4日 (UTC)
详细阐述目前的转换技术
我看了一下mediawiki的源码。user:shizhao说的这点我昨天也意识到了,确实mediawiki里放替词表不合适,特别是经常需要更改的数据本就不该放在源码里!具体说一下,
- includes/zhtable/* 里没什么数据,(源码里的转换大多靠引进Unihan等公共数据库,所以基本上是静态的)。
- includes/zhtable/MAKEFILE 生成includes/ZhConversion.php,里面就定义四个转换表变量,其中$zh2CN列前半是繁转简字词,后半是台湾(繁)=>大陆(简)翻译词,$zh2TW列前半是简转繁字词,后半是大陆(简)=>台湾(繁)翻译词。$zh2SG则是大陆、台湾、香港=>新加坡译词的合并,$zh2HK是大陆、台湾、新加坡=>香港译词的合并。
- languages/LanguageConverter.php 定义转换基类。
- languages/classes/LanguageZh.php 延伸转换LanguageConverter类,其中引进 includes/ZhConversion.php的四个转换表变量,zh_cn版、zh_tw版分别用$zh2CN和$zh2TW转换,zh_sg版用$zh2CN和$zh2SG的合并,zh_hk版用$zh2TW和$zh2HK的合并。
由此可见,这里面混乱得不得了,特别是zh_sg和zh_hk的做法过于劣等(比如已经陆译台了为什么还有陆译新的替换对等等),怪不得之前两种variant招牌挂着却不投入使用。
- 全站转换的数据来自上述源文件里的静态表和 MediaWiki:Conversiontable/* 里的动态表的结合。这是所谓的“自动转换”。
- 除此,还有搜索、标题连接、外语连接、版块等等的转换都用了这个表。
- 源文件里也有标签转换的迹象。支持三种标签(全页的{A|...}, 标题的{T|...}, 和单独转的{...})。这是所谓的“手动转换”。
我看这些重叠表的使用都可以废除了。下面写一点并非完全成熟的技术策略TTTT 02:11 2007年2月9日 (UTC)
- 仍须保留地区用词整体转换表;若未完善则须试完善之:共识中有:应建地区用词进退机制。--Hillgentleman | 书 | 2007年02月09日( 五 ), 03:02:56.
我認為zh-hk不應直接繼承zh-tw轉換表,而應獨自建立新表,原因是香港跟台灣的用字很多都不相同。
- 例:香港用「衞」、「裏」、「卧」、「兑」、「昷」、「着/著」分開使用,台灣則用「衛」「裡」「臥」、「兌」、「囚+皿」、「著」代替「着」。拔萃仔 06:39 2007年2月11日 (UTC)
技术策略
- 编制全新的简转繁和繁转简转换表(静态的两个表,动态的两个表)。
- 制表的最高指导方针是:“服务现代汉语”和“转字不译词”,因此,
- 一对一的字无疑义,直接置入静态表。
- 各地区为同一概念造的不同的新字如果表音相同可以视作异体。
- 一简对多繁的字多为假借字。汉语假借仅两种可能:
- 借形,比如假借古罕用字(形)的“宁”、“广”,则现代汉语里实属一对一,直接置入静态表。
- 借音,比如“斗”、“谷”、“干”、“表”、“面”,都一律放在动态表里。
- 一简对多繁也可能是异体字:
- 把只有一种正规体的异体字作为一对一放入简转繁静态表里;凡是繁转简一对一的纯异体,则放入繁转简的静态表里,其他的放在动态表里。
- 一繁对多简的字(比如“干”,“堃”)同理留给动态表。
- 这里面包括允许用于人名的异体字。
- 简繁和繁简两张动态表里置放所有的一对多转换,可以采取一定的自动化手段协助完成制表,如下:
- (注:以下所指的“左边”和“右边”指表的“两边”,即“左边”的字串转换成“右边”的字串。)
- 列出所有的一对多的字对,以最常用的单字顺序排列:如:“斗=>斗,斗”,“干=>干,干”,“堃=>堃,坤”。箭头右面可以用array,如果技术上不能实现则最终只保留第一个转换字。
- “最常用”并不等同于不转换的字,比如“斗=>斗”,“干=>干”是最常用。但“堃=>堃”最常用因为“堃”作为人名远比作为“坤”的异体常见,大多可以用作人名的繁转简异体字都如此。
- 为了区分字义,表里左边的每个字都列出包含该字的最短包含词,并列出转换
- 如果词和对应词都一头或两头裁字(最短裁到两个字),结果仍是汉语词并已经在表里存在一对一对应,则该词不是“最短包含词”。
- 如果一词对多词,以最常用顺序排列。如果技术上只能取一个,则最终只保留右边的第一个词。
- 注意不译原则,即使一个词在某地区有另一种意思或从来不用,也不译。
- 校对1:列出表里所有出现非吞没式重叠的左边词对(简转繁的话则如:“头发”、“发表”、“表面”、“面条”),并拼凑。
- 如果拼凑出来的也是词并且会形成表里未出现过的最短词对,就必然是漏掉的词对,也加入转换词对。重复至没有新词加入。
- 校对2: 列出右边非第一项的字串中仅在该对里出现的字串。这些是仍存在歧义的字词对
- 检查是否漏掉了可以消除歧义的更长词对。如有,加入,重复。
- 到了这步,仍存歧义的字词对都是难以自动转换的,没人工智能不可能分辨。
- 比如异体单字(如人名里的异体)和语法差别词(一些繁体里动词/名词写法有别的词)
- 以上是理想的制表方式。但为了方便,应该先利用现成的表数据作为起点,这并不是很难,手动都可以完成,但输出的表可能有重叠或其他问题,可以慢慢清理。
- 有了这些表,简繁转换就可以以最长吻合字串的做法来完成。步骤如下:先在文本里搜索转换表右边的词,所有搜索到的词都已经是目标字体的了;继续在文本里搜索转换表左边的词,有吻合就转换成右边的词。如果右边有多项字串,则取第一项字串(就是最常用的字串)。
- 碰到转换不好的文章,首先动用不显示的分隔字串(目前有{})做词分隔,而不是把周围的几个字一起加到动态转换表里去(除非形成的确实是表里漏掉的词,而不是一个特殊的片断)。
- 至于地区词的互译,建议用标签实现。如果必要整站转换(看不出这个必要,但如果一个标签出现很多或为了连接和搜索等),则应另设表(而且索性来个全对应表,而不是四个地区排列组合出6个对应),然后先上替换表,再上繁简转换表。现阶段可以沿用抽掉繁简转换部分的替换表,但应该审视并逐渐剔除不符合原则的替换(原则待讨论,见“共识”段落)。
- 增设zh-hans和zh-hant两种variant,分别为标准版简体和标准版繁体。保留zh。
- 其余variant的处理方式也根据需要修改源码。
同时请参考中文维基最初建立繁简体兼容体系时的Wikipedia:繁简处理/技术方案。
最后随便说一句长远一点的话,其实啊,如果中文维基字典做得好,就是最好的转换表源了。 TTTT 13:09 2007年2月7日 (UTC)
- 静态表做繁->简汉字的一对一无歧义转换,动态表做一简->多繁的汉字转换,需要日常维护。词语的转换最好在各个条目用noteA标签解决,不要设全局转换表。--Alexcn 05:21 2007年2月9日 (UTC)
- 非常恰当的总结。TTTT 05:29 2007年2月9日 (UTC)
下一步
完成以上的计划需要修改源码,比较麻烦。但是大部分仍然可以不修改源码完成,性能会差一点,作为尝试则不成问题。因此:我准备先兴建两个动态转换表,分别为zh-s和zh-t服务。其中一部分将来可以移至静态表。最终这两个名字按照国际标准应该叫作zh-hans和zh-hant,zh-tw应该改为zh-hant-tw,以此类推。zh-hant转换的动态表页面似乎已经存在,不知道是什么缘故。 我已经向管理员申请了,请给予支持。TTTT 05:27 2007年2月9日 (UTC)
- 我觉得阁下应该是要下载一套MediaWiki软件,再进行修改;修改后将它放给开发员处理。只是在维基百科中授权,亦不会对MW软件的修改有任何的帮助。--Shinjiman ⇔ ♨ 11:53 2007年2月9日 (UTC)
- 确实应该先架站试验一下,等社区达成共识,充分测试之后再上线修改。--Alexcn 13:15 2007年2月9日 (UTC)
- 我申请的两个页面是为了让所有人都过目一下上面所谓的繁简转换包括哪些词、不包括哪些词,毕竟有一些边缘案例,也可以借维基用户的力量完善一下这些一旦改系统就要用的表。我自己建个站根本不解决这些问题。我不认为这有什么不恰当,或与另架测试站有什么关联,两者大可以并行进展。我要求的页面根本不被使用,既不影响目前维基百科的运作,又可以为下一步的修改做准备。请各位管理员重新考虑我的提议。TTTT 23:34 2007年2月9日 (UTC)
- 个人不建议在中文维基百科上做技术尝试,毕竟这样风险太大(一方面网站浏览量很大,一方面数据库也很庞大)。如果您需要中文维基百科上的条目在自己架设的网站做验证,可以,这里提供中文维基百科的XML资料表(虽然非常大,上GB,别被压缩过的大小骗了),可以架设在测试网站上做验证。--笨笨的小B | 20巷 12:13 2007年2月10日 (UTC)
- 至于书写转换表的部分,您大可以在您的User页面下做个子页面(像User:笨笨的小B/Current new),然后在这个页面告诉大家有这个东西。因为在MediaWiki名字空间上的项目可以影响系统界面,比较容易发生冲突的问题,因此不建议在MediaWiki名字空间书写。--笨笨的小B | 20巷 12:15 2007年2月10日 (UTC)
- 我申请的两个页面是为了让所有人都过目一下上面所谓的繁简转换包括哪些词、不包括哪些词,毕竟有一些边缘案例,也可以借维基用户的力量完善一下这些一旦改系统就要用的表。我自己建个站根本不解决这些问题。我不认为这有什么不恰当,或与另架测试站有什么关联,两者大可以并行进展。我要求的页面根本不被使用,既不影响目前维基百科的运作,又可以为下一步的修改做准备。请各位管理员重新考虑我的提议。TTTT 23:34 2007年2月9日 (UTC)
- 确实应该先架站试验一下,等社区达成共识,充分测试之后再上线修改。--Alexcn 13:15 2007年2月9日 (UTC)
- 同意以上诸位的说法。另外,全局转换表不宜一下子全部拿掉,必须慢慢来。--Jnlin(讨论) 14:45 2007年2月9日 (UTC)
- 我不是很支持zh-tw改成zh-hant-tw,因为zh-(tw, cn, hk, sg)是RFC 1766规定的标准,参见W3C HTML 4.01规格书。另外找到了一个可供参考的连结,Wikipedia talk:繁简处理/档案6。--笨笨的小B | 20巷 11:57 2007年2月10日 (UTC)
好像有一段时间没讨论了?!
请问上述的讨论是否已有定案?是否有结论?Stewart~恶龙 11:48 2007年3月7日 (UTC)
- 对于这种的改动是要修改MediaWiki软件本身的,此外,要作修改前,必须先要收集好要作转换的词汇。然后才能执行。基于这种的修改是与管理员权限是无关的,故此有管理员权限的用户亦都无能为力。这需要一些懂修改php的人士帮忙,以解决这种的问题。这问题不只是维基百科本身的问题,是所有使用MediaWiki软件的网站都有这个问题,所以这次的修改亦需要小心地去进行。--Shinjiman ⇔ ♨ 12:21 2007年3月7日 (UTC)
刚才发现一个问题,在广东话里“架次”可以作车辆的量词,但在台湾只用于航空器...--苍空 翔 有事点我 19:49 2007年3月7日 (UTC)
其实大家已经取得共识,问题在技术方面而已,似乎TTTT在研究中,请问进展如何?--真实事求是(☎) 11:17 2007年3月8日 (UTC)
嗯,最大的困难我想一定是技术方面。我对MediaWiki这么大型的程式,可能需要几个月的时间全职研究才能搞懂,而很不好意思的是,我没有那么多空闲时间。所以希望有志愿者能帮忙研究修改程式。--Jnlin(讨论) 08:08 2007年3月16日 (UTC)
问题多,技术复杂,一、两个人弄不来,Ksyrie成立小组的提议非常适宜。由部分人开始推动吧,我提议先设小组专门页面,任何人有兴趣都可以加入小组,提供意见或分担大家的工作,更重要的是必须有懂行的人来“领导”大家,否则还要花时间去学习熟悉各方方面面,也会走很多冤枉路,Shinjiman研究简繁的事情很久了,是很好的人选,不知有兴趣否?--真实事求是(☎) 15:30 2007年3月16日 (UTC)
Names.php更新
现在显示语言标签的名称已经更新了(rev:21200, rev:21201),zh-cn会将会由【中文(简体)】改成【中文(中国)】,现时显示成〖中文(中国大陆)〗;zh-hk会将会由【中文(繁体)】改成【中文(香港)】,现时显示成〖中文(香港)〗;zh-sg会将会由【中文(简体)】改成【中文(新加坡)】,现时显示成〖中文(新加坡)〗;zh-tw会将会由【中文(繁体)】改成【中文(台湾)】,现时显示成〖中文(台湾)〗。此外,zh-hans以及zh-hant亦将会增加,zh-hans会显示成〖中文(简体)〗,zh-hant会显示成〖中文(繁体)〗;这对将会做的中文用字转换系统的重组有所帮助。--Shinjiman ⇔ ♨ 15:41 2007年4月12日 (UTC)
- 为什么“【中文(简体)】改成【中文(中国)】”?这和目前的“大陆,香港,台湾。。。”矛盾。—Isnow 18:27 2007年4月12日 (UTC)
- zh-cn ← Chinese (China)、zh-Hans ← Chinese (Simplified),将两者区分出来,避免混淆;而这里的改动并不是更改页顶的标签,而是更改在跨语言链接、以及在参数设置中的显示名称。请参阅RFC 4646所引用的IANA language subtag registry。--Shinjiman ⇔ ♨ 18:46 2007年4月12日 (UTC)
- IANA language subtag registry中提到的“zh-Hans-CN”为“PRC Mainland Chinese in simplified script”对应的也是“中国大陆”
- 为避免分歧,需要“页顶的标签”,“跨语言链接”、“参数设置中的显示名称”都使用“中国大陆”(或简称“大陆”)而不是“中国”
- —Isnow 20:58 2007年4月12日 (UTC)
- zh-cn ← Chinese (China)、zh-Hans ← Chinese (Simplified),将两者区分出来,避免混淆;而这里的改动并不是更改页顶的标签,而是更改在跨语言链接、以及在参数设置中的显示名称。请参阅RFC 4646所引用的IANA language subtag registry。--Shinjiman ⇔ ♨ 18:46 2007年4月12日 (UTC)
繁简字词跟地区用词即将正式分拆
很久都没有讨论过这个问题了,我已经在rev:28045中正式修改了源码,让繁简字词跟地区用词正式分拆。到更新后的MediaWiki:Conversiontable/zh-hant以及MediaWiki:Conversiontable/zh-hans都会正式成为MW转换系统的正式一部分。而无需要以现时在zh-hk/zh-tw中包含着zh-hant转换表来处理这个问题。同时在语体中文系维基网站会由5种字体变换增加到7种,所增加的是‘简体(zh-hans)’跟‘繁体(zh-hant)’。到更新后,需要在MediaWiki:Monobook.js中修改相应的项目。
在更新源码的同时,有关的转换字词可能会出现转换问题,到时请在此汇报一下,再查看有什么的解决方法。
到现时为止的‘中文(澳门)/zh-mo’以及‘中文(马来西亚)/zh-my’会否增加到MW的转换系统中,欢迎大家继续讨论这个问题。 --Shinjiman ⇔ ♨ 2007年12月2日 (日) 09:32 (UTC)
- 终于有进展了,辛苦了。—Fauzty 2007年12月3日 (一) 07:33 (UTC)
太好了,终于有简繁公版了,辛苦了。现在简繁系统已很混乱,似乎不适合再增加地区用词分页,应先解决现有问题。另外,建议建立专页,介绍简繁系统的各种技术,以免再度失传,相信这是一个庞大,耗时费日的工程,或可以成立小组的方式进行。
现在这系统,能够容纳多个地区用词页面而不混乱吗?--真实事求是(☎) 2007年12月3日 (一) 14:00 (UTC)
以前的转换方法是这样的:
|
现在的转换方法基本上是这样的:
|
这样的更改可以先将繁简/地区用字分拆清楚,避免了香港转换表使用台湾转换表的问题(很多的台港字词有歧义);跟新加坡转换表使用中国大陆转换表的问题(很多的中新字词有歧义)。--Shinjiman ⇔ ♨ 2007年12月3日 (一) 14:28 (UTC)
- 为什么转换表中显示的是“繁体”而不是“繁體”!? 私は中国学の大師◆■◆Hoinapbaktsyn 2007年12月4日 (二) 22:10 (UTC)
- 阁下所指的是页顶标签?因为这设定是应用于全网的,如果可以的话,那就需要在信息档中再修改一下。--Shinjiman ⇔ ♨ 2007年12月4日 (二) 23:38 (UTC)
- 己经啪上到rev:28174了。 --Shinjiman ⇔ ♨ 2007年12月5日 (三) 02:45 (UTC)
这次的分拆尚无法达成像zh-Hans-TW, zh-Hant-CN之类的功能,可惜了点。虽然目前的分拆已经满足社群大部分的需要,像这种特殊的需求大概不多,但是有此种功能的话,对于想学习繁体/简体字的朋友们是很好的。—Fauzty (留言) 2007年12月5日 (三) 14:11 (UTC)
- 虽然这样作可以再细分一些,但如果要这样分,那变换就需要十多种了。如果不保留原先的zh-CN/zh-TW/zh-HK/zh-SG等变换,那跟以前的用法就不能相容了。--Shinjiman ⇔ ♨ 2007年12月5日 (三) 14:25 (UTC)
- zh-CN/zh-TW/zh-HK/zh-SG还是有保留的必要性。我这个意见,只是未来如果要扩充功能时可以参考看看。—Fauzty (留言) 2007年12月5日 (三) 14:47 (UTC)