DBpedia

本页使用了标题或全文手工转换
维基百科,自由的百科全书
DBpedia
DBpedia logo
开发者
首次发布2007年1月23日 (2007-01-23)
当前版本
  • 2016-10 (2017年7月4日)
编辑维基数据链接
源代码库 编辑维基数据链接
编程语言
操作系统Virtuoso Universal Server
类型
许可协议GNU General Public License
网站dbpedia.org

DBpediaDB乃是资料库,database的意思,也可做资料库百科全书解) 是一项从维基百科里萃取结构化内容英语structured content的项目。这些计画所得的结构化资讯,也将放在网际网路中公开让人取阅。[1]DBpedia允许使用者查询跟维基百科相关资源之间的关系与性质,甚至也可查询从维基百科外连到其他资料组英语dataset的内容。[2]DBpedia曾被全球资讯网创始人提姆·柏内兹-李评论为世界上最有名的几个去中心化连结资料的专题之一。[3]

缘起

此计画一开始是由来自柏林自由大学以及莱比锡大学的人士所开启,并与开放连结软体英语OpenLink Software(Open Linked Software)同盟合作[4]。第一份公开可取得的资料集在2007年时发布。它是透过自由授权英语free license的方式所发布,允许他人自由利用这些资料集。

维基百科的条目大部分都是没有固定格式的文字,不过也有部分的资料是属于结构化的资讯并且被镶嵌在条目中,像是资讯框的表格内容(也就是预设在桌机版维基百科浏览格式,出现在条目右上角出现的栏位,或是行动版维基百科的条目一开始就显示的栏位。)、分类、图像、地理座标、以及外部网页连结。这些结构化的资讯会在此计画案被提取出来并且将其统一的放在一个资料集里头以方便查询。

资料组

2013年9月,DBpedia发布了第3.9版的更新。[5]如同之前版本的加强,这次也新增了维基百科更多资讯框的比对,同时也新增了维基数据的连结。(透过 owl:sameAs 的连结)。[5]此版的资料组描述了四百万笔实体(entities),其中有322万笔实体是在一个连贯的知识本体中进行分类,这些实体包含了832,000位人物、639,000个地景、116,000份音乐专辑、78,000部影片、18,500个电动游戏、209,000个组织、226,000个物种以及5,600种疾病。[6]。DBpedia资料集提供了最多有119个不同语言的特色标签以及资料摘要;现总共有2460万个图片连结以及2760万笔连到外部网页的连结资料、4500万笔连结到其他RDF格式的资料集、6700万笔连结到维基百科的分类页,以及4120万笔YAGO2英语YAGO (Ontology)分类的资料[6]。DBpedia计画使用资源描述框架(Resource Description Framework,简称RDF)来呈现撷取的资料,目前包含了24.6亿笔的RDF triple英语RDF triple资料、4700万从英文版本维基百科上撷取的资料、19.8亿则来自其他的语言版本,同时有大约4,500万的资料连往外部的资料集。[6]

从本资料集,多个页面之间传播的资讯可以被撷取,例如某书籍的作者资料,能够被放在关于此书或关于作者的页面中。

从维基百科撷取资料其中的一个重大挑战是,相同概念可能会在资讯框以及其他的模版中被用不同的参数表示,例如|birthplace=以及|placeofbirth=意义相同。在这样的情况下,查询人物出生地点就必须要在这两个参数下都有查询才能够得到完整的结果。于是,DBpedia的映对语言就被开发了出来,以帮助映对知识本体里头这些定义的异同,进而减少同义词的重叠。有鉴于维基百科中使用资讯框以及其他数值非常的多元,开发以及改善映对语言的机制是以开源的方式征求大众参与[7]

范例

DBpedia摘取维基百科页面上的事实资讯,让使用者可以不用在多个维基百科条目之间浏览便找到问题的答案。查询资料的方式是利用SPARQL(像SQL查询语言)来对资源描述框架(RDF)进行查询。举例,假如你对日本少女漫画系列东京喵喵感兴趣,想要找这部漫画的绘者创作的其他作品。DBpedia结合了维基百科上东京喵喵、征海未亚这些条目,以及相关作品诸如丽佳公主以及恋きゅー英语Koi Cupid的资讯。因为DBpedia把这些资料都标准化到单一的资料库里,下列查询页面存档备份,存于互联网档案馆)就能够在不需具体清楚哪一个条目有包含了哪一部分的片段资讯,就能够完整的列出相关作品类型:

PREFIX dbprop: <http://dbpedia.org/property/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE { 
 db:Tokyo_Mew_Mew dbprop:author ?who .
 ?WORK  dbprop:author ?who .
 OPTIONAL { ?WORK dbprop:genre ?genre } .
}

使用DBpedia的相关计画或组织

DBpedia广纳了人类知识不同领域,十分多元的范畴资料。这使得它自然而然成为连结众多资料集的枢纽,让外部资料集能够连结到相关的概念。[8]DBpedia的资料集是跟其他许多网路上不同的开放资料资料集在RDF的层级交互相连著。透过这些资料集,可以让应用程式丰富DBpedia的资料。截至2013年9月 (2013-09),已经有超过4500万笔在DBpedia与外部资料集之间的交互连结产生,外部资料集包含:Freebase (database)OpenCycUMBEL英语UMBELGeoNamesMusicbrainzCIA World Fact BookDBLPProject Gutenberg、DBtune JamendoEurostatUniprotBio2RDF英语Bio2RDF、以及美国普查英语US Census等资料[9][10]汤森路透公司的前导计画OpenCalais英语Calais (Reuters Product)纽约时报的连结开放资料计画、Zemanta英语Zemanta API以及DBpedia Spotlight也纳入了DBpedia的连结[11][12][13]BBC也使用DBpedia来辅助其内容组织[14][15]Faviki英语Faviki使用DBpedia进行语意标签(semantic tagging)[16]

亚马逊公司提供一串DBpedia公共资料集(Public Data Set),这可整合进亚马逊网路服务应用之中[17]

DBpedia Spotlight

2010年6月,来自Web Based Systems Group以及柏林自由大学的研究人员开始了一个叫做“DBpedia Spotlight”的计画,开发工具来将文字资料中使用DBpedia资源的部份加上注解。这个工具解决了过去透过DBpedia连结非结构化资讯来源到开放连结资料云的问题。DBpedia Spotlight可展示已命名实体撷取(named entity extraction)、包含实体侦测(entity detection)以及命名冲突化解(name resolution)(也就是消歧义(disambiguation))。此工具也能在其他资讯撷取(information extraction)任务中,用来进行命名实体辨识(named entity recognition)。DBpedia Spotlight聚焦在多种不同用途的客制应用。不去聚焦于少部分的实体类型,此计画试图支援全部DBpedia上来自超过320个不同分类里,共约三百五十万个实体与概念。

DBpedia Spotlight可公开获取,是以一个为了测试用途而提供的网路服务,或者也可以从Apache授权Java/Scala API。DBpedia Spotlight分配也包含了一jQuery插件,此插件允许开发人员在网路上的任何一页加上注解,只要在他们的页面上增加一行文字即可[18]用户端也有Java或PHP的支援应用[19]。此工具可从其展示页(demo page)里,处理多种的英语资料[20]以及网路服务。国际化的支援部分,只要此语言有开维基百科即可支援[21]

参见

参考来源

  1. ^ Bizer, Christian; Lehmann, Jens; Kobilarov, Georgi; Auer, Soren; Becker, Christian; Cyganiak, Richard; Hellmann, Sebastian. DBpedia - A crystallization point for the Web of Data (PDF). Web Semantics: Science, Services and Agents on the World Wide Web. September 2009, 7 (3): 154–165 [2014-06-04]. ISSN 1570-8268. doi:10.1016/j.websem.2009.07.002. (原始内容 (PDF)存档于2010-02-02). 
  2. ^ Komplett verlinkt - Linked Data. 3sat. 2009-06-19 [2009-11-10]. (原始内容存档于2013-01-06) (德语). 
  3. ^ Sir Tim Berners-Lee Talks with Talis about the Semantic Web. Talis. 7 February 2008 [2014年6月4日]. (原始内容存档于2013年5月10日). 
  4. ^ wiki.dbpedia.org Team, [2009-11-23], (原始内容存档于2014-09-21) 
  5. ^ 5.0 5.1 Changelog. DBpedia. September 2013 [23 September 2013]. (原始内容存档于2014-06-06). 
  6. ^ 6.0 6.1 6.2 DBpedia 3.9 released.... DBpedia. [2013-09-23]. (原始内容存档于2013-09-27). 
  7. ^ DBpedia Mappings. mappings.dbpedia.org. [2010-04-03]. (原始内容存档于2020-10-24). 
  8. ^ E. Curry, A. Freitas, and S. O’Riáin, "The Role of Community-Driven Data Curation for Enterprises,"页面存档备份,存于互联网档案馆) in Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer US, 2010, pp. 25-47.
  9. ^ Statistics on links between Data sets, SWEO Community Project: Linking Open Data on the Semantic Web (W3C), [2009-11-24], (原始内容存档于2009-10-02) 
  10. ^ Statistics on Data sets, SWEO Community Project: Linking Open Data on the Semantic Web (W3C), [2009-11-24], (原始内容存档于2009-10-15) 
  11. ^ Sandhaus, Evan; Larson, Rob. First 5,000 Tags Released to the Linked Data Cloud. open.blogs.nytimes.com. 2009-10-29 [2009-11-10]. (原始内容存档于2020-10-26). 
  12. ^ Life in the Linked Data Cloud. www.opencalais.com. [2009-11-10]. (原始内容存档于2009-11-24). Wikipedia has a Linked Data twin called DBpedia. DBpedia has the same structured information as Wikipedia – but translated into a machine-readable format. 
  13. ^ Zemanta talks Linked Data with SDK and commercial API. blogs.zdnet.com. [2009-11-10]. (原始内容存档于2010-02-28). Zemanta fully supports the Linking Open Data initiative. It is the first API that returns disambiguated entities linked to dbPedia, Freebase, MusicBrainz, and Semantic Crunchbase. 
  14. ^ European Semantic Web Conference 2009 - Georgi Kobilarov, Tom Scott, Yves Raimond, Silver Oliver, Chris Sizemore, Michael Smethurst, Christian Bizer and Robert Lee. Media meets Semantic Web - How the BBC uses DBpedia and Linked Data to make Connections. www.eswc2009.org. [2009-11-10]. (原始内容存档于2009-06-08). 
  15. ^ BBC Learning - Open Lab - Reference. bbc.co.uk. [2009-11-10]. (原始内容存档于2009-08-25). Dbpedia is a database version of Wikipedia. It is used in a lot of projects for a wide range of different reasons. At the BBC we are using it for tagging content. 
  16. ^ Semantic Tagging with Faviki. www.readwriteweb.com. (原始内容存档于2010-01-29). 
  17. ^ Amazon Web Services Developer Community : DBpedia. developer.amazonwebservices.com. [2009-11-10]. (原始内容存档于2010-02-13). 
  18. ^ Mendes, Pablo. DBpedia Spotlight jQuery Plugin. jQuery Plugins. [15 September 2011]. (原始内容存档于2011-04-03). 
  19. ^ DiCiuccio, Rob. PHP Client for DBpedia Spotlight. GitHub. [2014-06-04]. (原始内容存档于2019-02-15). 
  20. ^ Demo of DBpedia Spotlight. [September 8, 2013]. (原始内容存档于2012年10月11日). 
  21. ^ Internationalization of DBpedia Spotlight. [September 8, 2013]. (原始内容存档于2019-09-24). 

外部链接