跳至內容

Wikipedia talk:繁简处理

頁面內容不支援其他語言。
維基百科,自由的百科全書


通用規範漢字表》以外的簡體字是否應該類推簡化

這說來有點話長,但日前因為在修理相關條目時遇到了「-{𫛚}-」這種字(該字位於Unihan擴充C區),接著就發現-{小苇𫛚}-及-{小葦鳽}-並不被系統視為是同個字,所以數天前至WP:TS報修。但稍早前微腫頭龍閣下提及這是因為該字在《通用規範漢字表》以外的緣故,所以需要一些意見討論是否應該將可能會使用到的表外字作類推簡化(並修改轉換表)重定向或移動到合適標題,又或是直接限制僅使用在表內的字或要求使用繁體標題以迴避問題。畢竟實質上不少表外字可能已經被經常使用,而導致部分條目標題實質上是繁簡混雜的,卻因非表內字而無法被正常轉換。

另外現在有個問題是如果硬套{{僻字}}轉換處理的話,有時候似乎會出現蠻可怕的懸浮文字框,但我一時不太知道怎麼處理及觸發的。舉例來說,在大陸簡體模式下大麻鷺屬的右側導航框中的「-{麻𫛚亚科}-」懸浮文字。--WiTo🐤💬 2024年5月6日 (一) 16:40 (UTC)[回覆]

有多少字?—— Eric Liu -{創造}-は生命(留言留名學生會 2024年5月6日 (一) 17:39 (UTC)[回覆]
老實說我不知道,我目前也只是偶然發現有幾個字是這樣的狀況。但辶、門、金、食、馬、鳥、魚等字旁的字個人猜測可能會有不少這種情形,應該會需要電腦協助篩出有在Unihan擴充區內但不在表內的字。範圍上可能從擴充A區就要開始找了,A區的「䴙䴘」疑似就有類似情形(-{北美䴙䴘属北美鸊鷉屬北美鷿鷈屬}-,不過這組有牽涉到異體字的問題可能不一定真是如此)--WiTo🐤💬 2024年5月7日 (二) 00:33 (UTC)[回覆]
根据我近期看到的一些中文学术著作,似乎并没有统一的做法,有人就用繁体字,有人则用简体字(生物类)---{百無一用是書生}- () 2024年5月7日 (二) 09:36 (UTC)[回覆]
仅考虑学术用字的话几百个应该还是有的,但如果范围扩大至所有领域恐怕得去到一千个以上(尤其是古人名、古地名)。--微肿头龙留言2024年5月7日 (二) 01:43 (UTC)[回覆]
忘了副知提醒我此事的@微肿头龙閣下及當時先使用了𫛚一字的@Interaccoonale閣下。--WiTo🐤💬 2024年5月7日 (二) 00:40 (UTC)[回覆]
这个讨论串是否应该移动到技术版?--——🦝Interaccoonale留言贡献 2024年5月7日 (二) 01:18 (UTC)[回覆]
我大概说一下我的想法:
  • 从法律上讲,之前《通用規範漢字表》的草案有规定过表外汉字不类推简化,但是正式版把这一条删掉了,所以含有类推简化偏旁的表外汉字是应该简化的。
  • 从实际应用上讲,《中华人民共和国国家重点保护野生动物名录》对于生物中文名的表外汉字作类推简化处理,大部分正式学术著作也作类推简化处理。
  • 从技术上讲,如果相关的bug实在太多,我不反对改回原状,对于表外汉字在简体模式下显示繁体字。
我之前有思考过比当前的{{僻字}}模板更优雅的渲染方式,我之前想的是根据当前页面中包含的扩展区段字符,自动生成一个含有相关僻字的字体文件(字形档),然后用CSS引入到当前页面中,就可以避免这种恐怖的悬浮文字框(有时候这些文字会被显示在Tools-redirect中以及底部的页面分类里面,会变得尤其可怕)。比如大麻鷺屬就会自动生成一个仅含有-{𫛚}-字的字体文件(字形档)。
其实如果只考虑自动生成的部分,在技术上还不算太难,以遍黑体为基础字体(字形)就可以,能在服务器端编辑字体文件(字形档)的库也有很多。但是我不清楚要如何跟mediawiki整合起来。
另一种技术上更简单(但是操作上更复杂)的方法就是手动将相关字符拆分出来,然后上传到commons,然后在页面中引用即可。--——🦝Interaccoonale留言贡献 2024年5月7日 (二) 01:31 (UTC)[回覆]
若根據NC:COMMON的話,那就應該是要隨名錄名稱類推簡化沒錯了。但希望能以操作上簡易的方式處理,不然像我這種電腦技術笨蛋恐怕就不會操作了,不過命名標題會不會有需要額外調整?另若認為搬去技術版更合適,那還請協助移動。--WiTo🐤💬 2024年5月7日 (二) 03:27 (UTC)[回覆]
我早前用字形wiki的字体做过一个小工具来实现类似你说的这种方法,后来因为技术和安全原因失效了。其实现在仍然可以利用字形wiki的字体资源来实现,只是要把字体之类的资源搬到toolforge上去,然后本地用小工具调用。c区似乎不能上传字体文件?“根据当前页面中包含的扩展区段字符”其实并不是一个很好的做法,因为每个人电脑/终端上的字库未必不一样,在甲上不能正常显示的字形,在乙那里没准就可以正常显示。所以最好的办法是自动检测某人设备上哪些字形不能正常显示,不能正常显示的就即时下载相应的字形文件(可能会遇到一些优化工作要做)。目前来说,我知道的是这种自动检测方法chrome和firefox下都有解决方案,其他浏览器内核的不确定---{百無一用是書生}- () 2024年5月7日 (二) 09:47 (UTC)[回覆]
  • chrome检测法:将代表不能显示的字符形状映射到画布,然后将文本中的每个字符一个一个映射到画布并进行比较,如果比较结果一致,就表示该字符无法在这个设备上显示
  • firefox检测法:将文本中所有字符设为斜体,如果某个字符不是斜体,就表示该字符无法在这个设备上显示(比如𱎼家人和𱎼家人
---{百無一用是書生}- () 2024年5月29日 (三) 04:05 (UTC)[回覆]
@-{T45614631}-、-{Interaccoonale}-、-{Ericliu1912}-:我根据知乎上的一些文章整理出来了未被收录进《通用规范汉字表》的科学技术用字,见我的子页面User:微肿头龙/E。这个表肯定是不完整的,欢迎补充。--微肿头龙留言2024年5月7日 (二) 06:52 (UTC)[回覆]
這樣看起來的話,有些表外字還是有被正常轉換耶,像是魟、鰠、鎶等,那是被手動增加轉換的嗎?--WiTo🐤💬 2024年5月7日 (二) 07:49 (UTC)[回覆]
那几个字确实已经加入全域转换了。这里有维基百科的完整繁简转换表--微肿头龙留言2024年5月7日 (二) 09:01 (UTC)[回覆]
所以現在算是有共識要處理這個繁簡問題嗎?感覺上這些字遲早會變成正規簡化字...--WiTo🐤💬 2024年5月13日 (一) 03:47 (UTC)[回覆]
@-{Shizhao}-、-{Interaccoonale}-、-{T45614631}-、-{Ericliu1912}-:所以几位觉得需要处理这些繁简问题吗?还是放着不用理?我个人是觉得需要简化。--微肿头龙留言2024年5月16日 (四) 07:48 (UTC)[回覆]
我是支持简化的,但还是要考虑显示的问题?——🦝Interaccoonale留言贡献 2024年5月16日 (四) 08:16 (UTC)[回覆]
@-{Interaccoonale}-:其实就我个人来说{{僻字}}就已经够用了,但如果有更好的方式也可以。我的电脑技术很差,这方面就爱莫能助了。--微肿头龙留言2024年5月16日 (四) 08:36 (UTC)[回覆]
目前维护内置转换表的管理意见,应该是大部分都只转换到中日韓統一表意文字扩展B区,后面扩展区域的因为大部分设备字体兼容性不足,一般不转换(大部分类推简化的繁体本字能正常显示)。上面有表外漏转汉字可能要从扩展A区开始找的观点,我(+)-{支持}-这种找法,扩AB两个区先查一遍看看有什么没转换的。至于后面的扩展区我暂保持中立。--屠麟傲血留言2024年5月17日 (五) 14:53 (UTC)[回覆]
那我就轉到技術區看要有沒有人能處理這問題了。--WiTo🐤💬 2024年5月25日 (六) 03:50 (UTC)[回覆]
拿脚本找了一下Unihan數據庫(裏面可能有不適用的,例如“奨,奬”還有大部分一簡多繁轉換):
篩選出了簡繁皆為基礎及擴AB區的
--User:What7what8🏠 2024年5月25日 (六) 06:51 (UTC)[回覆]
如果通過的話,WP:R3可能也有需要更改。--User:What7what8🏠 2024年6月14日 (五) 03:12 (UTC)[回覆]
如果通過的話Template:繁简混杂重定向也要改,不過只有幾個頁面應該不難改。--User:What7what8🏠 2024年5月25日 (六) 07:52 (UTC)[回覆]
粗略看来一下阁下列出的,当中有些是违反简化规则的。比如“-{㳕}-,-{灡}-”,“-{蘭}-/-{兰}-”字位于《简化字总表》的第一表,因此是不可类推简化的。也就是说,如果有一天“-{灡}-”字被列为规范汉字,也仅会对“-{門}-”部件进行简化变成“-{𬞕}-”,而不是将整个“-{蘭}-”进行简化。再比如“-{䓕}-,-{薳}-”,由于“-{遠}-/-{远}-”也是不可类推简化部件,所以“-{薳}-”也是不必简化的,刚巧《通用规范汉字表》就有收录“-{薳}-”字。所以阁下的这个恐怕要进行超大规模的整理才能提交啊。而且我觉得没有具体使用例子的就没必要简化了。不过还是要感谢一下阁下把它们整理出来。@-{What7What8}-:--微肿头龙留言2024年5月25日 (六) 13:40 (UTC)[回覆]
另外想問一下哪一種字體支援最完整?—— Eric Liu -{創造}-は生命(留言留名學生會 2024年5月26日 (日) 03:41 (UTC)[回覆]
应当是宋体吧,因为Unicode的文件也是宋体,Microsoft在显示生僻字时好像也是默认宋体。--微肿头龙留言2024年5月26日 (日) 03:46 (UTC)[回覆]
宋體是字體風格不是一種字體。--Miyakoo留言2024年5月26日 (日) 11:05 (UTC)[回覆]
好吧,是我搞错了两个概念。谢谢指出。@-{Miyakoo}-:--微肿头龙留言2024年5月26日 (日) 11:09 (UTC)[回覆]
Unifont吧,不過是點陣字形,可以參考Wikipedia:Unicode扩展汉字還有Template:Unihan
( π )题外话Special:链入页面/Wikipedia:Unicode扩展汉字“𰻝𰻝面 (← 連結 | 編輯)”怎麽全變方框了,還有𱎼家人的標題“家人”也變成方框了,是有什麽bug嗎?--User:What7what8🏠 2024年5月26日 (日) 15:30 (UTC)[回覆]
Firefox正常显示,Chrome显示方框。--Kethyga留言2024年5月29日 (三) 00:38 (UTC)[回覆]
我这里不能复现---{百無一用是書生}- () 2024年5月29日 (三) 03:28 (UTC)[回覆]
我這也是,認真說應該是我兩台電腦都開chrome,一台正常顯示,另一台則是全方框。--WiTo🐤💬 2024年5月29日 (三) 05:34 (UTC)[回覆]
天珩全字庫(大陸標準)和字雲(日本標準),它們都支援到了I區。--Miyakoo留言2024年5月26日 (日) 10:58 (UTC)[回覆]
目前转换表主要是我在维护,过来解释一下。确实如上文所说,目前只支持到中日韓統一表意文字扩展B区及以前的规则,B区之后基本只支持了通用规范汉字表表内的规则。这么做主要还是考虑到大众用户的设备显示,现在大家使用手机访问的频率变得更高,但目前手机显示基本只支持到扩展A区+所有表内汉字,因此不敢妄作扩张,怕反而伤害了用户的阅读体验。—Chiefwei - 2024年6月8日 (六) 13:23 (UTC)[回覆]
說起來,大陸當局沒說能不能「類推簡化」?—— Eric Liu -{創造}-は生命(留言留名學生會 2024年7月23日 (二) 23:09 (UTC)[回覆]
本來通用表的草案是有說不得簡化的,但後來正式公布時刪去該行字了。所以我想應該是可以的。--WiTo🐤💬 2024年7月24日 (三) 04:27 (UTC)[回覆]
但我看条目里说《解读》中还是提到了类推简化的问题。规范公布后出版的字典类书籍也还是有的选择类推,有的选择保留。--——「あたいってばね!」 2024年7月24日 (三) 05:32 (UTC)[回覆]