维基百科讨论:繁简处理/档案3

页面内容不支持其他语言。
维基百科,自由的百科全书

开始吧!

如果不订下一明确的目标,我想我们永远都解决不了这个问题。

要是不想繁简分站,利用软体作自动的繁简转换是最好的办法。我不懂编程,但我对这软件的大概运作也有一些想法:

  • 中文WP只储存一个版本的文章。(不一定只是繁体或只是简体,可以是两者混合的)
  • 当有新用户来到,我们就先按他的IP去推测他最有可能要的版本。
  • 但这一定会有错,所以我们可以让他手动选择,然后利用cookies记下他所要的是哪个版本。
  • 如果是已登入的用户,他当然可以在“个人设定”中设定他要看的版本。
  • 当决定了要拿的是哪个版本后,我们就利用软件把我们数据库中的那篇文章作机器转换,然后输出。
  • 用户编辑时无论输入繁体或是简体都可以。
  • 储存时无需转换,直接储存进我们的繁简混合版本。
現時:
混合版本(數據庫)
|下載
混合版本(用戶)
|編輯、上載
混合版本(數據庫)
利用軟件:
混合版本(數據庫)
|轉換
單一版本(數據庫)
|下載
單一版本(用戶)
|編輯、上載
混合版本(數據庫)

有关“转换”:

  • 多数字是简单的一对一模式(维-维;书-书),问题不大。
  • 不是一对一的字,则按其前后字来推测适当的转换。(以后以后,但皇后则不转换)
  • 对于各地对同一事物用词不同的情况,可以在转换时先令软件查阅各地华人词汇对照,把整个词语作转换。(软体-软件)
  • 人手改正功能:有时候软件会做不到我们理想的效果,而必须要用人手去改正,这些人手改正的资料可以meta资料的形式储存在数据库中。

有人有相关的编程知识吗?有甚么困难?或者我们应该发电邮到wikitech-I和intlwiki-I以寻求意见? --Lorenzarius 17:26 2003年10月17日 (UTC)

非常棒的idea!Lorenzarius,您做程式设计师应该没有问题了! :D --Samuel 01:53 2003年10月18日 (UTC)
支持!可以先到intlwiki提出来。--Formulax 09:13 2003年10月18日 (UTC)


非常同意这种做法。因为繁体中文和简体中文本来就不是中英文这样两种截然不同的语言,相信大多情况下,大家能同时看懂两种的,所以它们没有在同一页面上以重复的意思出现的必要,同样的话左右或者上下分列看起来也比较奇怪。
所以按照个人的习惯——简体或者繁体,让每个人看到统一的页面是相当好的做法——就像一些网站一样,分简体中文和繁体中文两个版本。
我是新用户,编辑的有不当处,请告诉我,谢谢。考拉 11:58 2003年10月18日 (UTC)
至于界面则可以有简繁体两个locale,供用户选择。--Formulax 03:34 2003年10月19日 (UTC)
突然想到一个问题,就是关于标题的问题。例如在一个混合版本中有一个链接数学,在转换到繁体版本后变成数学,如果数学原来是一个空的页面,那么就不能通过数学连接到数学了。除非把数学作为数学的重定向。这样的话,就有一个问题,标题应该是用简体字命名呢还是繁体字命名呢?因为现在很多条目只有简体字版本,没有繁体字版本,那样转换成的繁体版本就会后很多空连接。如果使用简体字命名,则所有相应的繁体字条目变成指向简体字的重定向。但是这样的话,所有的繁体条目都会见上这样一句奇怪的繁体字句子“重定向自数学。”(以数学为例)。况且也可能会使人觉得使用简体字是偏向大陆的标准。--Samuel 09:13 2003年10月23日 (UTC)

我觉得比较好的做法是, 当使用者新增或更动内容时同时存成两份, 一份为简体, 一份为繁体, 原因是转换简/繁体是需要花费计算成本的, 如果在存档时转换, 只要花费一次的转换时间, 如果在浏览时才转换, 则需要花费 n 倍时间(例如, 有一个页面同时有100个人浏览, 系统要做一百次相同的转换后才传给使用者; 就算没在同一个时间浏览, 看看google被查询次数最多的keyword排行榜, 前几名动不动就是几万次, 这样等于每天要做相同的转换几万次, 转换的成本比单纯的读取成本还高, 所以不合效率); 而且各存一份, 一来互有备份, 二来管理方便, 保证储存的资料繁简版一致, 三来, 与内容不相关的页面, 可以个别制作, 如首页; 这种方式也容易实现! 希望各位参考参考! --骨董 22:29 2003年12月3日 (UTC)

这样当然也可以,但是维基是开放给人任意编辑的,一个人编辑完后储存到数据库,还是要进行转换的,不过这样似乎比只存一个版本更方便一点,而且确实能省下一点时间——毕竟看的人比写的人多。--

我的解决方案是:用兼容简繁体的编码方式储存内容,比如:utf8,这样一来储存的内容可以简繁并存,当在繁体页面就用函数:utf8--->big5,在简体页面就:utf8----->gb;这样就可以了! 这个网站就是这样解决的:lation.com 学术翻译网 Formulax 01:19 2003年12月4日 (UTC)


现阶段的做法

由于现在一时还不能彻底解决这个问题,我建议采用消除歧义的办法暂时解决繁简体的问题。现在用XX/繁之类的标题看起来实在奇怪,还是用XX (繁)得标题看起来好一些。另外,现在一些语言版本的wiki可以使用zh-cn和zh-tw对中文的繁简体版本进行链接,我们是否也可以采用这种形式暂时解决问题。只要更新m:LanguageZh.php就行了。当然,我认为最终的解决办法还是使用自动转换程序来实现繁简体的自动转换,别无他法,除非分站,我实在不想看到这种情况,也没有必要。--Shizhao 01:03 2003年10月21日 (UTC)

利用消歧义作繁简问题的暂时处理办法已经是我们现时的办法了,请看Wikipedia talk:繁简处理/档案1#繁体页的命名。 --Lorenzarius 09:24 2003年10月28日 (UTC)
用[XX (繁)]已经是我们现时的办法了?讨论没看到如此,不是[XX/繁]吗?--Menchi 05:37 2003年10月29日 (UTC)
您误会了我的意思,其实XX/繁也可以是消歧义的一种,只不过我们用“/”作繁简消歧义的符号,以别于一般消歧义。(即kt2所说的“将所有繁简版本名称是一样的条目的转成一种特别的"消含糊"”) --Lorenzarius 03:51 2003年10月31日 (UTC)

简繁体并存有一个网站做的很好,站长也可以去参考一下: 海峡网 -Dowba

无法进入:“The page cannot be displayed”。--Menchi 04:36 2003年11月2日 (UTC)

移动自Wikipedia:聊天

中文简繁体

英文wikipedia现在通过使用zh-cn和zh-tw实现对中文wp上的繁简体网页的跨语言链接,我总觉得不太合适,我认为应该开发繁简体自动转换的功能,这是最好的解决办法。现在中文wp的条目数中有很大一部分是繁体条目,条目的计数并不能反映中文wp的真正条目数量--Shizhao 01:13 2003年9月11日 (UTC)

甚么?(震惊@o@)相关的页面在那儿?
(我一直以为繁简自动转换才是中文WP解决繁简问题的最好办法,为甚么现在……) --Lorenzarius
我只在英文版上发现了这个功能,其他版本的不知道,中文版的还没有实现。它主要用来实现其他语言与繁体页面和简体页面之间的跨语言链接,并不能解决中文版的繁简体问题的实质。现在zh仍然可以使用,你可以去英文版上试试。--Shizhao 01:35 2003年9月12日 (UTC)

请看这里Luoyang--Shizhao 13:30 2003年9月12日 (UTC)

这功能谁设计的?--Menchi 23:45 2003年9月12日 (UTC)
不太清楚--Shizhao 01:14 2003年9月13日 (UTC)

其实如果那条链接是显示作“简体中文(Simplified Chinese)”而不像现在的“中文(简体)(Simplified Chinese)”会更好看。 --Lorenzarius 09:46 2003年9月13日 (UTC)

感觉很不好看。不知道开发员在开发时有没有与中文版的管理员进行过沟通? --Samuel 09:55 2003年9月13日 (UTC)
不会呀,效率很高的,无多余的信息,像网状一般的知识系统,用起来很方便。Dersonlwd 15:01 2003年10月25日 (UTC)

我感觉到有一个问题(这个问题对使用简体字的朋友并不明显),那就是:现时繁简互换的技术还不太成熟。很多接触过这个问题的朋友都听说过“繁简互换”并不是一个 1-1-mapping 而是一个 n-n-mapping。一个简体字可以对应多个繁体字之馀,一个繁体字(特别指 Big5 码)亦可以对应多个简体字。再者,现时这个选字的过程是自动化的吗?还是定死了某一特定的选词?我认为,还是先让繁简内容并行,再看看怎样发展?石添小草 05:42 2003年10月20日 (UTC)

基本上繁体对简体转换比较方便,因为一般一个繁体字多数只有一个简体字对应,但是简体转繁体就比较复杂,有些简体字可以对好几个繁体字。--Formulax 05:51 2003年10月20日 (UTC)

看了zh.wp的网页代码,用的是utf-8编码。在这里面怎么简繁转码呢?--Xyb 09:55 2003年11月6日 (UTC)

结束移动 * 结束移动

感觉怪怪的

我是香港的繁体用户,觉得现在很多介面都是简体,感觉怪怪的。有时候又繁简混在一起,又是怪怪的。 我发觉在UTF8之下有些字在繁简都是同一个code(e.g. 蒙古),所以现在的(繁)(简)选择方法行不通,因为都是指向同一页的。 --tomofumi


php提供了iconv

我前几天问了人,给我的答复是:

php提供了对iconv的包装,可以用这个进行转换,而无需自己进行繁简映射。至于同时显示繁简,我这个人觉得只要找一种编码,能同时覆盖繁、间编码,如utf-8等,就应该可以吧。

他的blog:http://hedong.3322.org/

不知道对大家有没有帮助?--Shizhao 08:23 2003年11月12日 (UTC)


建议

今天继续向人求教,收获颇多。

  1. 繁简体一对一的转换比较容易实现,我认为可以采用这个建议
  2. 原页面为utf-8,用iconv将页面从utf8转成gb18030给大陆用户,转成big5给其它用户。要是转换后的页面也要求是utf8的话,就对刚才的结果再做一次逆转换。

并且作了从utf8转成gb18030测试,基本成功。希望这些能对中文wikipedia有所帮助。

另外这里有几个关于汉字编码的文章:[1][2][3][4]

还有几个关于PHP的中文网站,可以向他们请教一下[5][6]

--Shizhao 14:16 2003年11月12日 (UTC)

我觉得这个方案不好,还是统一在utf-8下比较好,因为这里有好些别的语言文字,采用纯汉字的gb18030或big5不能照顾到它们。直接在utf-8下转换汉字的繁简体比通过几次转换要好。--Mountain 15:12 2003年11月12日 (UTC)
外文直接用号码(글)像英文维基,这样会接触问题吗?--Menchi 00:32 2003年11月13日 (UTC)
但是如此的话编辑的时候就非常不方便呀;相反如果采用utf-8,我们就可以直接编辑跨语言的各种文本。再者象글一类的表示在HTML语言规范中称为Numeric character references,它们要符合ISO-10646标准,而ISO-10646标准跟unicode是兼容的。我觉得用utf-8编码是目前最佳的选择。繁简转换是另外一个问题,不涉及编码形式的变化。--Mountain 02:06 2003年11月13日 (UTC)
我也觉得继续使用utf-8比较好

简化字标准

中华人民共和国的汉字规范主要有:

此外,新加坡1976年公布了《简体字总表》,马来西亚1981年公布了《简化汉字总表》,它们都依据于1964年《简化字总表》。

这几个规范应该是我们作繁简转换的依据。--Mountain 15:12 2003年11月12日 (UTC)

Title

关于我上面提到的标题的问题有什么方法吗?是统一使用简体命名,还是繁体命名?--Samuel 16:39 2003年11月12日 (UTC)
我觉得标题是繁体条目用繁体标题,简体条目用简体标题,对于繁简体区分不了的标题,采用自动生成的消歧义页面。这样应该存在算法把条目内的链接也链到正确的页面。-Mountain 00:17 2003年11月13日 (UTC)
不,我不是指现在,我是指在使用新的自动转换程式以后,应该怎样处理繁体简体标题问题。--Samuel 05:34 2003年11月13日 (UTC)
标题是否也能设计为自动转换繁简体的形式呢?对于繁简体中同一事物的不同称呼,我认为以简体为主,其他可以做重定向。简体名称的使用还是大多数。--Shizhao 05:43 2003年11月13日 (UTC)
的确,标题也可以自动转换,但是一些条目,例如北大西洋公约组织北大西洋公约组织,如果繁体的条目是空的话,那么即使在整篇文章转换成繁体后,其中的繁体页面的连接北大西洋公约组织就还是空页面,而相应的简体页面中的北大西洋公约组织却是存在的。这样会很不方便。如果可以确定,例如统一使用简体命名,那么在繁体转换的时候,所有的链接页面都转换成为这样:[[简体名称|繁體名稱]]就可以了。虽然条目命名是简体的,但是内容却可以根据用户的选择转换成繁体。--Samuel 05:58 2003年11月13日 (UTC)

你说的方法好像太麻烦了,我们可不可以根据用户习惯或设置,整个站点都变为繁体或简体,这样就没有你说的问题了--Shizhao 06:14 2003年11月13日 (UTC)

如果是那样的话,就没有必要讨论自动转化程式的问题了吧?--Samuel 06:16 2003年11月13日 (UTC)
哦,我误会了,我大概就是那个意思,所以我想问一下应该使用简体,还是繁体?--Samuel 06:17 2003年11月13日 (UTC)
哦,还有就是,如果全部使用简体或繁体的话,似乎对输入不方便,我想主要还是标题的问题,至于其中的内容,可以使用繁简体混合的。--Samuel 06:26 2003年11月13日 (UTC)
如果差很多的话,简繁都用,用括弧分开:[新西兰(纽西兰)]。但是用全形括弧,非消含糊的半形括弧。 --Menchi 06:41 2003年11月13日 (UTC)
或许我们不一定要规定标题一定用简体或繁体,哪个版本先建立就用哪个,如北大西洋公约组织北大西洋公约组织北大西洋公约组织先有内容,我们就用北大西洋公约组织,而如果是繁体的标题先有内容,就用繁体的标题。--Formulax 07:08 2003年11月13日 (UTC)
标题可否也繁简体自动转换?--Shizhao 07:36 2003年11月13日 (UTC)
那么转换程序就要先搜索数据库,看哪一个版本存在,然后再决定在转换文本的时候选择什么版本吗?那么过程就要增加一步:

转换内容的时候:
扫描文章的所有内部连接,扫描数据库文件;
如果用户使用简体版本,但是数据库只有繁体版本,则把连接转变成[[繁体版本|简体名称]],反之亦然;
当用户点击连接时,在根据用户的选择,反复上面的转换操作。
--Samuel 09:52 2003年11月13日 (UTC)

分辨繁简体

如果用程序,我们可以怎样分辨繁体中文字和简体中文字?可以从它们的UTF-8码上看出来吗? --Lorenzarius 09:37 2003年11月13日 (UTC)

可不可以这样,在保存到数据库时,将标题和内容全部转换为同一种形式,如简体或繁体,在从数据库中读出时,再转换为用户习惯的繁简体形式?--Shizhao 10:54 2003年11月13日 (UTC)

连接方面的问题,也如此处理可以吗?--Shizhao 10:56 2003年11月13日 (UTC)

我的意思是,程序能如何分辨一个字是繁体还是简体? --Lorenzarius 13:45 2003年11月13日 (UTC)
当然可以从UTF-8上分辨出一个字是否是繁体或简体,主要的依据就是《简化字总表》和《第一批异体字整理表》。《简化字总表》可以见[7]。汉字的繁到简的转换并不是多到一的,只能说大部分是多到一的,还有一些要根据上下文判断。比如“干”是“干”(gān)的简化字,但是“乾坤”的“干”(qián)并不简化。--Mountain 04:37 2003年11月14日 (UTC)
真巧!我昨天才写Li Chengqian。我原本差点写成Chenggan!不过像到应该没有人名字那个菜…--Menchi 04:54 2003年11月14日 (UTC)
我想没有必要让程序分辨是繁体还是简体,用户需要什么版本,就直接转换后显示该版本。比如如果需要简体,则进行繁体-->简体转换,而原版本中即使是简体,转换后也还是简体。--Formulax 05:06 2003年11月14日 (UTC)
赞成!根本不需要两个版本!Wshun 05:14 2003年11月14日 (UTC)

我们现在讨论的就是如何把繁简体两个版本变为一个统一的版本--Shizhao 05:46 2003年11月14日 (UTC)

我觉得现在的问题大部分已经解决了,正如上面Lorenzarius讨论的方法一样,使用混合版本。现在我想主要的问题是关于条目命名的问题。--Samuel 07:20 2003年11月14日 (UTC)
条目命名,另用先到先得罢。第一个写的有名命权,其他的当作 redirect 罢! Wshun 06:10 2003年11月28日 (UTC)
这是一个大问题。我们应该加强讨论命名常规--Shizhao 06:27 2003年11月28日 (UTC)

下面讨论移动自Wikipedia:聊天

个整认为认

同一条目中简繁体共存的问题

由于最近机器的问题,换了一个浏览器Konqueror,可能是我配置的问题,繁体字显示不出来。因此才发现有些条目中主体文字是简体编纂的,但有些段落和句子就出现了繁体字样。这个问题是不是得注意一下呀?!如果可能的话,建议搞个robot先检索一下zh.wp,看看那些页面都存在这些问题:正好趁现在wp速度快了;-) --Xyb 06:27 2003年11月6日 (UTC)

我以前在IE5.0下也碰到过这个问题。如果你能解决这个问题,非常欢迎。现在我们一直找不到能解决繁简体问题的人。--Shizhao 06:44 2003年11月6日 (UTC)
我现在考虑可以先用wget, curl之类把zh.wp镜像下来,然后用本地程序逐个排查。我想这种工作用 shell、perl、python这类工具完成更方便快捷一些。--Xyb 08:20 2003年11月6日 (UTC)
能否开发一个繁简体共存的脚本,彻底解决这个问题?请参看Wikipedia talk:繁简处理--Shizhao 08:29 2003年11月6日 (UTC)
我不太明白你说的“繁简体共存”的意思,是想在该条目中就地转码吗?我是这样想的:先检查以前的都有那些条目中简繁混杂,然后参考Wikipedia talk:繁简处理寻找合适的方案处理:或统一成一种charset,或分割成一个条目的两个版本“简/繁”。--Xyb 08:39 2003年11月6日 (UTC)

正如你所说的就地转码,这样就不需要一篇文章同时存在两个版本,可以根据用户的语言习惯自动转成繁体或简体,而且应该可以输入文章时,繁简体混合输入,而显示则或为简体,或为繁体。有这个可能性吗?--Shizhao 08:43 2003年11月6日 (UTC)

那就是说需要php的码元转换代码了?这是我不懂的语言。我记得台湾一个很老的Linux网站有根据用户charset自动提供合适码元的功能,不知道他那个功能有没有放出来。我先查一查吧。不行我也学习一下php :-) --Xyb 08:56 2003年11月6日 (UTC)
检查了一下,发现wp运行在linux系统上。其实linux里很容易进行gb2312<->big5等各种各样的转码,现在最常用的就是iconv了。不过,我还发现wp的页面charset是utf8,这我就有些糊涂了:因为gb2312和big5都可以很容易转到utf8,这时是不是应该先把条目内容统一转到gb2312(或者big5),然后再转到utf8交给客户端去显示呢。--Xyb 02:21 2003年11月10日 (UTC)

你的建议可以贴到Wikipedia:邮件列表中去,现在我们中文版没有开发者--Shizhao 03:04 2003年11月10日 (UTC)

英文水平一般。什么时候有中文maillist呀?--Xyb 04:12 2003年11月10日 (UTC)
用utf8是应该的,因为这里有许多种语言的百科全书,采用utf8可以统一编码方案。我们讨论的繁简转换是在unicode范围之内的转换,因为unicode字符集很大,既包含了简化字也包含了繁体字。我对Apache的结构不是很了解,是不是可以用filter来作这个工作?--Mountain 04:17 2003年11月10日 (UTC)
哦,这样呀,这就不好说了。现在的简繁转换大多是基于一些映射表,基本都是不同码表之间的。在utf8里的简繁字码对应表我还没有见过,理论上倒是可以把现有GB2312<->GBK的转成utf8编码,不知实际作起来行不行。--Xyb 04:36 2003年11月10日 (UTC)

*移动结束

其实在这里讨论比较方便.--Menchi 05:27 2003年11月15日 (UTC)

参考以下几个看看吧(希望有帮助):

]

还有就是有人也有写了相关的机器翻译的PERL模组,也有只用APACHE的,和前面几位大大提的是不大一样的版本,请来这里至找到“简繁转换模组”这个地方看看:


现在维基百科已经完全简体中文化了,繁体字呢?--Samuel 06:25 2003年12月7日 (UTC)

什么行式好呢?-Menchi 12:26 2003年12月7日 (UTC)

是不是可以把繁简体的讨论放到meta上去,比如这里m:Meta.Wikimedia:Babel#Traditional and Simpified Chinese UI--Shizhao 12:52 2003年12月7日 (UTC)