双语影视知识图谱的构建研究

被引:32
作者
王巍巍
王志刚
潘亮铭
刘阳
张江涛
机构
[1] 清华大学计算机科学与技术系知识工程实验室
基金
法国国家科研署;
关键词
影视本体; 双语; 知识图谱;
D O I
10.13209/j.0479-8023.2016.022
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出一种双语影视知识图谱(BMKG)的构建流程。通过半自动化的方法构建了双语影视本体(BMO),将各个影视数据源对齐到BMO,以保持异构数据源的语义描述一致性。在知识链接方面,在充分挖掘和利用领域特征的基础上,采用基于Word2Vec和TFIDF两种向量模型的实体相似度计算方法,使相似度特征增加一倍,大大提升了模型的链接效果。在实体匹配方面,提出基于相似度传播算法的实体匹配算法,并利用影视数据源之间的内在联系,克服了跨语言实体之间计算相似度的语言障碍。实验结果表明,当阈值取到0.75以上时,实体匹配的准确率都能达到90%左右。此外,还建立了影视知识图谱共享平台,并提供开放性的数据访问和查询接口。
引用
收藏
页码:25 / 34
页数:10
相关论文
共 7 条
  • [1] 面向非结构化文本的开放式实体属性抽取
    曾道建
    来斯惟
    张元哲
    刘康
    赵军
    [J]. 江西师范大学学报(自然科学版), 2013, 37 (03) : 279 - 283+305
  • [2] 开放式文本信息抽取
    赵军
    刘康
    周光有
    蔡黎
    [J]. 中文信息学报, 2011, (06) : 98 - 110
  • [3] 多民族语言本体知识库构建技术
    赵小兵
    邱莉榕
    赵铁军
    [J]. 中文信息学报, 2011, 25 (04) : 71 - 74
  • [4] 领域本体的构建方法研究
    张文秀
    朱庆华
    [J]. 图书与情报 , 2011, (01) : 16 - 19+40
  • [5] 区域医疗本体知识库构建及其语义应用[D]. 宣腾.电子科技大学 2013
  • [6] 基于Web结构的表格信息抽取研究[D]. 刘颖.合肥工业大学 2012
  • [7] WordNet[J] . George A. Miller.Communications of the ACM . 1995 (11)