与古人对话 人工智能使用元数据跟踪古希腊文字演变

作者: admin 分类: 科技 发布时间: 2019-03-18 18:21

古代语言的解释包括对语义的猜测,以及一词多义和语境。Alan Turing Institute研究所、华威大学、赫尔辛基大学和亚马逊的研究人员在最新发表的一篇论文中提出了一种新的解决方案,该方案涉及到神经网络或分层的数学函数来模拟生物神经元,它被称为古希腊语的类别感知语义变化(GASC),它利用目标文本类型的分类元数据来揭示古希腊语数据集中含义的演变。

对语义变化进行建模的系统并不新鲜,研究人员已经使用了一系列基于主题和基于图形的自然语言处理模型,来完成解释任务。但作者指出,很少有人关注古代语言,而且大多数都没有考虑到语言的变异特征。相比之下,该团队的工作超越了文学数据集和历史语言数据,直接解决了关于体裁的问题。

古希腊文字

研究人员首先编制了一个预处理语料库,其中包括820首诗歌、戏剧、演讲、哲学、散文、叙事、地图册、宗教手稿和公元前8世纪至公元5世纪之间的信件,共逾1000万字。每个词都进行了引理 和词性标记,模型的任务是在给定的上下文中检测与目标词相关的意义,并描述它们随时间的演变。

研究小组解释说:”在技术文本中,我们希望多义词具有技术意义。另一方面,在更接近一般语言的作品中,如喜剧、演讲、史学等,我们希望这些词以更具体、更少隐喻的意义出现。”

为了评估人工智能系统的性能,研究人员创建了一个辅助数据集和框架。他们在语料库中选择了50个可以确定为多义词的目标词,其中17个来自希腊语专业词汇,33个来自Diorisis语料库中频率最高的引理(用来表示词汇或意义单位的形式)。对于每个单词,他们随机地将源语料库分为训练集和测试集,并设计了一种方法,可以自动将模型中与每种感觉相关的单词列表与一组由人类专家标注的感觉

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!