维基百科:标注/revscoring doc
可见https://github.com/wikimedia/revscoring/blob/master/revscoring/languages/english.py
基于python的正则规则,准备用于Special:最近更改内破坏倾向和质量评判过滤器,效果见en:Special:RecentChanges。注意:r
表示不转义,可能用到的元字符为*+?[]()
。
本页面内的所有规则均为手动制造,来源为以下列出的文章和之前机器学习的数据。目前,规则尚未被使用,您可以自行补充或修改以下规则,可能需要简单学习使用正则表达式,或将要添加的内容简单描述并注释。
(In a nutshell, ENG) These rules are made by humans, not robots.
参见:
- WP:AVOID
- WP:AWW
- WP:APT 格式手册的一部分
- 查看这些模板的链入页面 Special:链入页面/Template:Advert Special:链入页面/Template:who Special:链入页面/Template:which Special:链入页面/Template:fact 等。
目前的问题:
- 简体与繁体转换是否需要?
badword_regexes
不应出现的词语,可以是脏话或明显破坏
# r"" # English r"[fF]uck", # r"妈屄", r"妈逼", # 宣传与广告 r"本台", r"本公司", r"代[刷练抢]", r"强势回归", r"超值", r"一条龙", r"一夜情", r"(世界|国际)一流", r"用户(第一|满意|至上)", r"核心(价值|团队|宗旨)", r"服务(小姐|范围|项目|理念)", r"时彩", r"总代理", r"[偷盗破窃][qQσ扣]", # 仍可扩充 # 歧视 r"小日本", r"台湾狗", r"五毛", r"共产中国", r"流氓国家", r"支那", r"人渣", r"我去", # 翻译与文言 r"提出的在", r"据报", r"曰",
informal_regexes
不应出现在条目,但在讨论中经常出现的词语
# r"", r"互煮", r"23+", r"em+", r"谢谢", r"提删", r"求助",
words_to_watch_regexes
需要关注的词语,可能是违反方针指引或用语过于主观
# r"", # 地域中心 r"[我外]国", r"[本外][港地]", r"当局", # 时间 r"最近", r"[今去前昨上近]几?个?[天日周月年]", r"过去.*[天周月年]", r"刚+", r"刚才", r"一会儿", # 情绪化 r"强烈", r"只不过", r"只是", r"就算", r"尽管如此", r"[实本]质[上地]", r"基本[上地]", r"显然", r"显而易见", r"可笑", r"指出", r"有感", # 主客体模糊 r"专家", r"(部分|一些|许多|少部分)(人|学者|声音)", r"(有些|一些|局部|大部分|少部分)(国家|地区|省份|州)", # 华而不实 r"最(重要|关键|特别|好|坏|完美|出色|突出)", r"最.*影响力", r"荣获", r"[高多低]达", r"据.*称", # 破坏嫌疑 r"官方网[址站]",