維基百科討論:繁簡處理/檔案3

頁面內容不支援其他語言。
維基百科,自由的百科全書

開始吧!

如果不訂下一明確的目標,我想我們永遠都解決不了這個問題。

要是不想繁簡分站,利用軟體作自動的繁簡轉換是最好的辦法。我不懂編程,但我對這軟體的大概運作也有一些想法:

  • 中文WP只儲存一個版本的文章。(不一定只是繁體或只是簡體,可以是兩者混合的)
  • 當有新用戶來到,我們就先按他的IP去推測他最有可能要的版本。
  • 但這一定會有錯,所以我們可以讓他手動選擇,然後利用cookies記下他所要的是哪個版本。
  • 如果是已登入的用戶,他當然可以在「個人設定」中設定他要看的版本。
  • 當決定了要拿的是哪個版本後,我們就利用軟體把我們資料庫中的那篇文章作機器轉換,然後輸出。
  • 用戶編輯時無論輸入繁體或是簡體都可以。
  • 儲存時無需轉換,直接儲存進我們的繁簡混合版本。
現時:
混合版本(數據庫)
|下載
混合版本(用戶)
|編輯、上載
混合版本(數據庫)
利用軟件:
混合版本(數據庫)
|轉換
單一版本(數據庫)
|下載
單一版本(用戶)
|編輯、上載
混合版本(數據庫)

有關「轉換」:

  • 多數字是簡單的一對一模式(維-維;書-書),問題不大。
  • 不是一對一的字,則按其前後字來推測適當的轉換。(以後以後,但皇后則不轉換)
  • 對於各地對同一事物用詞不同的情況,可以在轉換時先令軟體查閱各地華人詞彙對照,把整個詞語作轉換。(軟體-軟體)
  • 人手改正功能:有時候軟體會做不到我們理想的效果,而必須要用人手去改正,這些人手改正的資料可以meta資料的形式儲存在資料庫中。

有人有相關的編程知識嗎?有甚麼困難?或者我們應該發電郵到wikitech-I和intlwiki-I以尋求意見? --Lorenzarius 17:26 2003年10月17日 (UTC)

非常棒的idea!Lorenzarius,您做程式設計師應該沒有問題了! :D --Samuel 01:53 2003年10月18日 (UTC)
支持!可以先到intlwiki提出來。--Formulax 09:13 2003年10月18日 (UTC)


非常同意這種做法。因為繁體中文和簡體中文本來就不是中英文這樣兩種截然不同的語言,相信大多情況下,大家能同時看懂兩種的,所以它們沒有在同一頁面上以重複的意思出現的必要,同樣的話左右或者上下分列看起來也比較奇怪。
所以按照個人的習慣——簡體或者繁體,讓每個人看到統一的頁面是相當好的做法——就像一些網站一樣,分簡體中文和繁體中文兩個版本。
我是新用戶,編輯的有不當處,請告訴我,謝謝。考拉 11:58 2003年10月18日 (UTC)
至於界面則可以有簡繁體兩個locale,供用戶選擇。--Formulax 03:34 2003年10月19日 (UTC)
突然想到一個問題,就是關於標題的問題。例如在一個混合版本中有一個連結數學,在轉換到繁體版本後變成數學,如果數學原來是一個空的頁面,那麽就不能通過數學連接到數學了。除非把數學作爲數學的重定向。這樣的話,就有一個問題,標題應該是用簡體字命名呢還是繁體字命名呢?因爲現在很多條目只有簡體字版本,沒有繁體字版本,那樣轉換成的繁體版本就會後很多空連接。如果使用簡體字命名,則所有相應的繁體字條目變成指向簡體字的重定向。但是這樣的話,所有的繁體條目都會見上這樣一句奇怪的繁體字句子「重定向自數學。」(以數學為例)。況且也可能會使人覺得使用簡體字是偏向大陸的標準。--Samuel 09:13 2003年10月23日 (UTC)

我覺得比較好的做法是, 當使用者新增或更動內容時同時存成兩份, 一份為簡體, 一份為繁體, 原因是轉換簡/繁體是需要花費計算成本的, 如果在存檔時轉換, 只要花費一次的轉換時間, 如果在瀏覽時才轉換, 則需要花費 n 倍時間(例如, 有一個頁面同時有100個人瀏覽, 系統要做一百次相同的轉換後才傳給使用者; 就算沒在同一個時間瀏覽, 看看google被查詢次數最多的keyword排行榜, 前幾名動不動就是幾萬次, 這樣等於每天要做相同的轉換幾萬次, 轉換的成本比單純的讀取成本還高, 所以不合效率); 而且各存一份, 一來互有備份, 二來管理方便, 保證儲存的資料繁簡版一致, 三來, 與內容不相關的頁面, 可以個別製作, 如首頁; 這種方式也容易實現! 希望各位參考參考! --骨董 22:29 2003年12月3日 (UTC)

這樣當然也可以,但是維基是開放給人任意編輯的,一個人編輯完後儲存到資料庫,還是要進行轉換的,不過這樣似乎比只存一個版本更方便一點,而且確實能省下一點時間——畢竟看的人比寫的人多。--

我的解決方案是:用兼容簡繁體的編碼方式儲存內容,比如:utf8,這樣一來儲存的內容可以簡繁並存,當在繁體頁面就用函數:utf8--->big5,在簡體頁面就:utf8----->gb;這樣就可以了! 這個網站就是這樣解決的:lation.com 學術翻譯網 Formulax 01:19 2003年12月4日 (UTC)


現階段的做法

由於現在一時還不能徹底解決這個問題,我建議採用消除歧義的辦法暫時解決繁簡體的問題。現在用XX/繁之類的標題看起來實在奇怪,還是用XX (繁)得標題看起來好一些。另外,現在一些語言版本的wiki可以使用zh-cn和zh-tw對中文的繁簡體版本進行連結,我們是否也可以採用這種形式暫時解決問題。只要更新m:LanguageZh.php就行了。當然,我認為最終的解決辦法還是使用自動轉換程序來實現繁簡體的自動轉換,別無他法,除非分站,我實在不想看到這種情況,也沒有必要。--Shizhao 01:03 2003年10月21日 (UTC)

利用消歧義作繁簡問題的暫時處理辦法已經是我們現時的辦法了,請看Wikipedia talk:繁簡處理/檔案1#繁體頁的命名。 --Lorenzarius 09:24 2003年10月28日 (UTC)
用[XX (繁)]已經是我們現時的辦法了?討論沒看到如此,不是[XX/繁]嗎?--Menchi 05:37 2003年10月29日 (UTC)
您誤會了我的意思,其實XX/繁也可以是消歧義的一種,只不過我們用「/」作繁簡消歧義的符號,以別於一般消歧義。(即kt2所說的「將所有繁簡版本名稱是一樣的條目的轉成一種特別的"消含糊"」) --Lorenzarius 03:51 2003年10月31日 (UTC)

簡繁體並存有一個網站做的很好,站長也可以去參考一下: 海峽網 -Dowba

無法進入:「The page cannot be displayed」。--Menchi 04:36 2003年11月2日 (UTC)

移动自Wikipedia:聊天

中文簡繁體

英文wikipedia現在通過使用zh-cn和zh-tw實現對中文wp上的繁簡體網頁的跨語言連結,我總覺得不太合適,我認為應該開發繁簡體自動轉換的功能,這是最好的解決辦法。現在中文wp的條目數中有很大一部分是繁體條目,條目的計數並不能反映中文wp的真正條目數量--Shizhao 01:13 2003年9月11日 (UTC)

甚麼?(震驚@o@)相關的頁面在那兒?
(我一直以為繁簡自動轉換才是中文WP解決繁簡問題的最好辦法,為甚麼現在……) --Lorenzarius
我只在英文版上發現了這個功能,其他版本的不知道,中文版的還沒有實現。它主要用來實現其他語言與繁體頁面和簡體頁面之間的跨語言連結,並不能解決中文版的繁簡體問題的實質。現在zh仍然可以使用,你可以去英文版上試試。--Shizhao 01:35 2003年9月12日 (UTC)

請看這裡Luoyang--Shizhao 13:30 2003年9月12日 (UTC)

這功能誰設計的?--Menchi 23:45 2003年9月12日 (UTC)
不太清楚--Shizhao 01:14 2003年9月13日 (UTC)

其實如果那條鏈接是顯示作「簡體中文(Simplified Chinese)」而不像現在的「中文(簡體)(Simplified Chinese)」會更好看。 --Lorenzarius 09:46 2003年9月13日 (UTC)

感覺很不好看。不知道開發員在開發時有沒有與中文版的管理員進行過溝通? --Samuel 09:55 2003年9月13日 (UTC)
不會呀,效率很高的,無多餘的信息,像網狀一般的知識系統,用起來很方便。Dersonlwd 15:01 2003年10月25日 (UTC)

我感覺到有一個問題(這個問題對使用簡體字的朋友並不明顯),那就是:現時繁簡互換的技術還不太成熟。很多接觸過這個問題的朋友都聽說過「繁簡互換」並不是一個 1-1-mapping 而是一個 n-n-mapping。一個簡體字可以對應多個繁體字之餘,一個繁體字(特別指 Big5 碼)亦可以對應多個簡體字。再者,現時這個選字的過程是自動化的嗎?還是定死了某一特定的選詞?我認為,還是先讓繁簡內容並行,再看看怎樣發展?石添小草 05:42 2003年10月20日 (UTC)

基本上繁體對簡體轉換比較方便,因為一般一個繁體字多數只有一個簡體字對應,但是簡體轉繁體就比較複雜,有些簡體字可以對好幾個繁體字。--Formulax 05:51 2003年10月20日 (UTC)

看了zh.wp的網頁代碼,用的是utf-8編碼。在這裡面怎麼簡繁轉碼呢?--Xyb 09:55 2003年11月6日 (UTC)

结束移动 * 结束移动

感覺怪怪的

我是香港的繁體用戶,覺得現在很多介面都是簡體,感覺怪怪的。有時候又繁簡混在一起,又是怪怪的。 我發覺在UTF8之下有些字在繁簡都是同一個code(e.g. 蒙古),所以現在的(繁)(簡)選擇方法行不通,因為都是指向同一頁的。 --tomofumi


php提供了iconv

我前幾天問了人,給我的答覆是:

php提供了對iconv的包裝,可以用這個進行轉換,而無需自己進行繁簡映射。至於同時顯示繁簡,我這個人覺得只要找一種編碼,能同時覆蓋繁、間編碼,如utf-8等,就應該可以吧。

他的blog:http://hedong.3322.org/

不知道對大家有沒有幫助?--Shizhao 08:23 2003年11月12日 (UTC)


建議

今天繼續向人求教,收穫頗多。

  1. 繁簡體一對一的轉換比較容易實現,我認為可以採用這個建議
  2. 原頁面為utf-8,用iconv將頁面從utf8轉成gb18030給大陸用戶,轉成big5給其它用戶。要是轉換後的頁面也要求是utf8的話,就對剛才的結果再做一次逆轉換。

並且作了從utf8轉成gb18030測試,基本成功。希望這些能對中文wikipedia有所幫助。

另外這裡有幾個關於漢字編碼的文章:[1][2][3][4]

還有幾個關於PHP的中文網站,可以向他們請教一下[5][6]

--Shizhao 14:16 2003年11月12日 (UTC)

我覺得這個方案不好,還是統一在utf-8下比較好,因為這裡有好些別的語言文字,採用純漢字的gb18030或big5不能照顧到它們。直接在utf-8下轉換漢字的繁簡體比通過幾次轉換要好。--Mountain 15:12 2003年11月12日 (UTC)
外文直接用號碼(글)像英文維基,這樣會接觸問題嗎?--Menchi 00:32 2003年11月13日 (UTC)
但是如此的話編輯的時候就非常不方便呀;相反如果採用utf-8,我們就可以直接編輯跨語言的各種文本。再者象글一類的表示在HTML語言規範中稱為Numeric character references,它們要符合ISO-10646標準,而ISO-10646標準跟unicode是兼容的。我覺得用utf-8編碼是目前最佳的選擇。繁簡轉換是另外一個問題,不涉及編碼形式的變化。--Mountain 02:06 2003年11月13日 (UTC)
我也覺得繼續使用utf-8比較好

簡化字標準

中華人民共和國的漢字規範主要有:

此外,新加坡1976年公布了《簡體字總表》,馬來西亞1981年公布了《簡化漢字總表》,它們都依據於1964年《簡化字總表》。

這幾個規範應該是我們作繁簡轉換的依據。--Mountain 15:12 2003年11月12日 (UTC)

Title

關於我上面提到的標題的問題有什麽方法嗎?是統一使用簡體命名,還是繁體命名?--Samuel 16:39 2003年11月12日 (UTC)
我覺得標題是繁體條目用繁體標題,簡體條目用簡體標題,對於繁簡體區分不了的標題,採用自動生成的消歧義頁面。這樣應該存在算法把條目內的連結也鏈到正確的頁面。-Mountain 00:17 2003年11月13日 (UTC)
不,我不是指現在,我是指在使用新的自動轉換程式以後,應該怎樣處理繁體簡體標題問題。--Samuel 05:34 2003年11月13日 (UTC)
標題是否也能設計為自動轉換繁簡體的形式呢?對於繁簡體中同一事物的不同稱呼,我認為以簡體為主,其他可以做重定向。簡體名稱的使用還是大多數。--Shizhao 05:43 2003年11月13日 (UTC)
的確,標題也可以自動轉換,但是一些條目,例如北大西洋公約組織北大西洋公約組織,如果繁體的條目是空的話,那麼即使在整篇文章轉換成繁體後,其中的繁體頁面的連接北大西洋公約組織就還是空頁面,而相應的簡體頁面中的北大西洋公約組織卻是存在的。這樣會很不方便。如果可以確定,例如統一使用簡體命名,那麼在繁體轉換的時候,所有的連結頁面都轉換成為這樣:[[简体名称|繁體名稱]]就可以了。雖然條目命名是簡體的,但是內容卻可以根據用戶的選擇轉換成繁體。--Samuel 05:58 2003年11月13日 (UTC)

你說的方法好像太麻煩了,我們可不可以根據用戶習慣或設置,整個站點都變為繁體或簡體,這樣就沒有你說的問題了--Shizhao 06:14 2003年11月13日 (UTC)

如果是那樣的話,就沒有必要討論自動轉化程式的問題了吧?--Samuel 06:16 2003年11月13日 (UTC)
哦,我誤會了,我大概就是那個意思,所以我想問一下應該使用簡體,還是繁體?--Samuel 06:17 2003年11月13日 (UTC)
哦,還有就是,如果全部使用簡體或繁體的話,似乎對輸入不方便,我想主要還是標題的問題,至於其中的內容,可以使用繁簡體混合的。--Samuel 06:26 2003年11月13日 (UTC)
如果差很多的話,簡繁都用,用括弧分開:[紐西蘭(紐西蘭)]。但是用全形括弧,非消含糊的半形括弧。 --Menchi 06:41 2003年11月13日 (UTC)
或許我們不一定要規定標題一定用簡體或繁體,哪個版本先建立就用哪個,如北大西洋公約組織北大西洋公約組織北大西洋公約組織先有內容,我們就用北大西洋公約組織,而如果是繁體的標題先有內容,就用繁體的標題。--Formulax 07:08 2003年11月13日 (UTC)
標題可否也繁簡體自動轉換?--Shizhao 07:36 2003年11月13日 (UTC)
那麼轉換程序就要先搜索資料庫,看哪一個版本存在,然後再決定在轉換文本的時候選擇什麼版本嗎?那麼過程就要增加一步:

轉換內容的時候:
掃描文章的所有內部連接,掃描資料庫文件;
如果用戶使用簡體版本,但是資料庫只有繁體版本,則把連接轉變成[[繁体版本|简体名称]],反之亦然;
當用戶點擊連接時,在根據用戶的選擇,反覆上面的轉換操作。
--Samuel 09:52 2003年11月13日 (UTC)

分辨繁簡體

如果用程序,我們可以怎樣分辨繁體中文字和簡體中文字?可以從它們的UTF-8碼上看出來嗎? --Lorenzarius 09:37 2003年11月13日 (UTC)

可不可以這樣,在保存到資料庫時,將標題和內容全部轉換為同一種形式,如簡體或繁體,在從資料庫中讀出時,再轉換為用戶習慣的繁簡體形式?--Shizhao 10:54 2003年11月13日 (UTC)

連接方面的問題,也如此處理可以嗎?--Shizhao 10:56 2003年11月13日 (UTC)

我的意思是,程序能如何分辨一個字是繁體還是簡體? --Lorenzarius 13:45 2003年11月13日 (UTC)
當然可以從UTF-8上分辨出一個字是否是繁體或簡體,主要的依據就是《簡化字總表》和《第一批異體字整理表》。《簡化字總表》可以見[7]。漢字的繁到簡的轉換並不是多到一的,只能說大部分是多到一的,還有一些要根據上下文判斷。比如「干」是「乾」(gān)的簡化字,但是「乾坤」的「乾」(qián)並不簡化。--Mountain 04:37 2003年11月14日 (UTC)
真巧!我昨天才寫Li Chengqian。我原本差點寫成Chenggan!不過像到應該沒有人名字那個菜…--Menchi 04:54 2003年11月14日 (UTC)
我想沒有必要讓程序分辨是繁體還是簡體,用戶需要什麼版本,就直接轉換後顯示該版本。比如如果需要簡體,則進行繁體-->簡體轉換,而原版本中即使是簡體,轉換後也還是簡體。--Formulax 05:06 2003年11月14日 (UTC)
讚成!根本不需要兩個版本!Wshun 05:14 2003年11月14日 (UTC)

我們現在討論的就是如何把繁簡體兩個版本變為一個統一的版本--Shizhao 05:46 2003年11月14日 (UTC)

我覺得現在的問題大部分已經解決了,正如上面Lorenzarius討論的方法一樣,使用混合版本。現在我想主要的問題是關於條目命名的問題。--Samuel 07:20 2003年11月14日 (UTC)
條目命名,另用先到先得罷。第一個寫的有名命權,其他的當作 redirect 罷! Wshun 06:10 2003年11月28日 (UTC)
這是一個大問題。我們應該加強討論命名常規--Shizhao 06:27 2003年11月28日 (UTC)

下面討論移動自Wikipedia:聊天

個整認為認

同一條目中簡繁體共存的問題

由於最近機器的問題,換了一個瀏覽器Konqueror,可能是我配置的問題,繁體字顯示不出來。因此才發現有些條目中主體文字是簡體編纂的,但有些段落和句子就出現了繁體字樣。這個問題是不是得注意一下呀?!如果可能的話,建議搞個robot先檢索一下zh.wp,看看那些頁面都存在這些問題:正好趁現在wp速度快了;-) --Xyb 06:27 2003年11月6日 (UTC)

我以前在IE5.0下也碰到過這個問題。如果你能解決這個問題,非常歡迎。現在我們一直找不到能解決繁簡體問題的人。--Shizhao 06:44 2003年11月6日 (UTC)
我現在考慮可以先用wget, curl之類把zh.wp鏡像下來,然後用本地程序逐個排查。我想這種工作用 shell、perl、python這類工具完成更方便快捷一些。--Xyb 08:20 2003年11月6日 (UTC)
能否開發一個繁簡體共存的腳本,徹底解決這個問題?請參看Wikipedia talk:繁簡處理--Shizhao 08:29 2003年11月6日 (UTC)
我不太明白你說的「繁簡體共存」的意思,是想在該條目中就地轉碼嗎?我是這樣想的:先檢查以前的都有那些條目中簡繁混雜,然後參考Wikipedia talk:繁簡處理尋找合適的方案處理:或統一成一種charset,或分割成一個條目的兩個版本「簡/繁」。--Xyb 08:39 2003年11月6日 (UTC)

正如你所說的就地轉碼,這樣就不需要一篇文章同時存在兩個版本,可以根據用戶的語言習慣自動轉成繁體或簡體,而且應該可以輸入文章時,繁簡體混合輸入,而顯示則或為簡體,或為繁體。有這個可能性嗎?--Shizhao 08:43 2003年11月6日 (UTC)

那就是說需要php的碼元轉換代碼了?這是我不懂的語言。我記得台灣一個很老的Linux網站有根據用戶charset自動提供合適碼元的功能,不知道他那個功能有沒有放出來。我先查一查吧。不行我也學習一下php :-) --Xyb 08:56 2003年11月6日 (UTC)
檢查了一下,發現wp運行在linux系統上。其實linux里很容易進行gb2312<->big5等各種各樣的轉碼,現在最常用的就是iconv了。不過,我還發現wp的頁面charset是utf8,這我就有些糊塗了:因為gb2312和big5都可以很容易轉到utf8,這時是不是應該先把條目內容統一轉到gb2312(或者big5),然後再轉到utf8交給客戶端去顯示呢。--Xyb 02:21 2003年11月10日 (UTC)

你的建議可以貼到Wikipedia:郵件列表中去,現在我們中文版沒有開發者--Shizhao 03:04 2003年11月10日 (UTC)

英文水平一般。什麼時候有中文maillist呀?--Xyb 04:12 2003年11月10日 (UTC)
用utf8是應該的,因為這裡有許多種語言的百科全書,採用utf8可以統一編碼方案。我們討論的繁簡轉換是在unicode範圍之內的轉換,因為unicode字符集很大,既包含了簡化字也包含了繁體字。我對Apache的結構不是很了解,是不是可以用filter來作這個工作?--Mountain 04:17 2003年11月10日 (UTC)
哦,這樣呀,這就不好說了。現在的簡繁轉換大多是基於一些映射表,基本都是不同碼表之間的。在utf8里的簡繁字碼對應表我還沒有見過,理論上倒是可以把現有GB2312<->GBK的轉成utf8編碼,不知實際作起來行不行。--Xyb 04:36 2003年11月10日 (UTC)

*移動結束

其實在這裡討論比較方便.--Menchi 05:27 2003年11月15日 (UTC)

參考以下幾個看看吧(希望有幫助):

]

還有就是有人也有寫了相關的機器翻譯的PERL模組,也有只用APACHE的,和前面幾位大大提的是不大一樣的版本,請來這裡至找到「簡繁轉換模組」這個地方看看:


現在維基百科已經完全簡體中文化了,繁體字呢?--Samuel 06:25 2003年12月7日 (UTC)

什麼行式好呢?-Menchi 12:26 2003年12月7日 (UTC)

是不是可以把繁簡體的討論放到meta上去,比如這裡m:Meta.Wikimedia:Babel#Traditional and Simpified Chinese UI--Shizhao 12:52 2003年12月7日 (UTC)