跨语言数据格式:促进语言数据的分享和再利用

地理科学 2019-02-1561未知admin

  过去的二十年中,语言数据数量急剧增加。不仅是世界几大主要语言的单语数据,跨语言数据集的量也大幅增加,目的是为了覆盖尽可能多的语言。创建语言学数据集目前十分流行,除了词源词典、用户词典和语法调查等传统收集方式外,越来越多的数据以在线数据库的形式被发表(最完整的数据库列表:)或者以论文的在线附录或补充材料的形式被发表。

  随着数据量的增加,人们对语言问题的兴趣也在不断增加。来自语言学和非语言学(如考古学、人类学、生物学、经济学和心理学)的学者现在都在尝试使用语言学数据以解决其各自学科的问题。例如,语言是如何传输的,颜色术语是如何演化的,某些特定的语言家族是如何分化的,气候、人口、基因等因素是如何影响语言的。

  尽管大量学术论文的发表反映了建立并应用语言数据的热潮,媒体对这一主题的热情也日益高涨,但语言数据仍远未达到Wilkinson等人提出的“FAIR”标准。所谓“FAIR”标准即可找寻(Findable)、可访问(Accesssible)、可互操作(Interoperable)、可重复使用(Reusable)。由于语言学期刊通常没有补充材料方面的政策,也缺乏能够实现服务器数据托管的资源,因此目前想要找到某一特定语言学数据集仍非常困难。语言学数据的访问目前也存在困难,许多基于原始数据的论文发表时并未公布其原始数据,向作者索要数据也比预想的困难得多。由于格式特殊,语言数据集通常缺乏互操作性,因而也难以重复使用。

  在本文中,来自德国马克斯-普朗克人类历史科学研究所的Robert Forkel、Johann-Mattis List及其团队提出了语言的历史和类型比较中两个基本数据类型(单词列表和结构数据)的新标准,并且提出了一个可纳入更多数据类型(如并行文本、词典)的框架。除了跨语言数据格式的新规范,研究还提供了用于验证和操作的软件包,以及可关联到通用框架的基本本体论和几个优秀的实用范例。

  特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

  科学家首次在实验上观测到超低温度下基态分子与原子之间的散射共振

  快速发表、全球发行的前沿(Frontiers)系列英文学术期刊

Copyright © 2002-2013 中华科学网 版权所有  

联系QQ:1352848661