学术探索
学术期刊
文章热点
数据分析
智能智评
立即登录
双语影视知识图谱的构建研究
被引:32
作者
:
论文数:
引用数:
h-index:
机构:
王巍巍
王志刚
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系知识工程实验室
王志刚
论文数:
引用数:
h-index:
机构:
潘亮铭
刘阳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系知识工程实验室
刘阳
论文数:
引用数:
h-index:
机构:
张江涛
机构
:
[1]
清华大学计算机科学与技术系知识工程实验室
来源
:
北京大学学报(自然科学版)
|
2016年
/ 52卷
/ 01期
基金
:
法国国家科研署;
关键词
:
影视本体;
双语;
知识图谱;
D O I
:
10.13209/j.0479-8023.2016.022
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
提出一种双语影视知识图谱(BMKG)的构建流程。通过半自动化的方法构建了双语影视本体(BMO),将各个影视数据源对齐到BMO,以保持异构数据源的语义描述一致性。在知识链接方面,在充分挖掘和利用领域特征的基础上,采用基于Word2Vec和TFIDF两种向量模型的实体相似度计算方法,使相似度特征增加一倍,大大提升了模型的链接效果。在实体匹配方面,提出基于相似度传播算法的实体匹配算法,并利用影视数据源之间的内在联系,克服了跨语言实体之间计算相似度的语言障碍。实验结果表明,当阈值取到0.75以上时,实体匹配的准确率都能达到90%左右。此外,还建立了影视知识图谱共享平台,并提供开放性的数据访问和查询接口。
引用
收藏
页码:25 / 34
页数:10
相关论文
共 7 条
[1]
面向非结构化文本的开放式实体属性抽取
论文数:
引用数:
h-index:
机构:
曾道建
论文数:
引用数:
h-index:
机构:
来斯惟
张元哲
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化所模式识别国家重点实验室
张元哲
刘康
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化所模式识别国家重点实验室
刘康
论文数:
引用数:
h-index:
机构:
赵军
[J].
江西师范大学学报(自然科学版),
2013,
37
(03)
: 279
-
283+305
[2]
开放式文本信息抽取
论文数:
引用数:
h-index:
机构:
赵军
刘康
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化研究所模式识别国家重点实验室
刘康
论文数:
引用数:
h-index:
机构:
周光有
论文数:
引用数:
h-index:
机构:
蔡黎
[J].
中文信息学报,
2011,
(06)
: 98
-
110
[3]
多民族语言本体知识库构建技术
赵小兵
论文数:
0
引用数:
0
h-index:
0
机构:
中央民族大学信息工程学院
国家语言资源监测与研究中心少数民族分中心
中央民族大学信息工程学院
赵小兵
邱莉榕
论文数:
0
引用数:
0
h-index:
0
机构:
中央民族大学信息工程学院
国家语言资源监测与研究中心少数民族分中心
中央民族大学信息工程学院
邱莉榕
赵铁军
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学教育部-微软语言语音重点实验室
中央民族大学信息工程学院
赵铁军
[J].
中文信息学报,
2011,
25
(04)
: 71
-
74
[4]
领域本体的构建方法研究
张文秀
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
张文秀
朱庆华
论文数:
0
引用数:
0
h-index:
0
机构:
南京审计学院审计系
不详
朱庆华
[J].
图书与情报 ,
2011,
(01)
: 16
-
19+40
[5]
区域医疗本体知识库构建及其语义应用[D]. 宣腾.电子科技大学 2013
[6]
基于Web结构的表格信息抽取研究[D]. 刘颖.合肥工业大学 2012
[7]
WordNet[J] . George A. Miller.Communications of the ACM . 1995 (11)
←
1
→
共 7 条
[1]
面向非结构化文本的开放式实体属性抽取
论文数:
引用数:
h-index:
机构:
曾道建
论文数:
引用数:
h-index:
机构:
来斯惟
张元哲
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化所模式识别国家重点实验室
张元哲
刘康
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化所模式识别国家重点实验室
刘康
论文数:
引用数:
h-index:
机构:
赵军
[J].
江西师范大学学报(自然科学版),
2013,
37
(03)
: 279
-
283+305
[2]
开放式文本信息抽取
论文数:
引用数:
h-index:
机构:
赵军
刘康
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化研究所模式识别国家重点实验室
刘康
论文数:
引用数:
h-index:
机构:
周光有
论文数:
引用数:
h-index:
机构:
蔡黎
[J].
中文信息学报,
2011,
(06)
: 98
-
110
[3]
多民族语言本体知识库构建技术
赵小兵
论文数:
0
引用数:
0
h-index:
0
机构:
中央民族大学信息工程学院
国家语言资源监测与研究中心少数民族分中心
中央民族大学信息工程学院
赵小兵
邱莉榕
论文数:
0
引用数:
0
h-index:
0
机构:
中央民族大学信息工程学院
国家语言资源监测与研究中心少数民族分中心
中央民族大学信息工程学院
邱莉榕
赵铁军
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学教育部-微软语言语音重点实验室
中央民族大学信息工程学院
赵铁军
[J].
中文信息学报,
2011,
25
(04)
: 71
-
74
[4]
领域本体的构建方法研究
张文秀
论文数:
0
引用数:
0
h-index:
0
机构:
不详
不详
张文秀
朱庆华
论文数:
0
引用数:
0
h-index:
0
机构:
南京审计学院审计系
不详
朱庆华
[J].
图书与情报 ,
2011,
(01)
: 16
-
19+40
[5]
区域医疗本体知识库构建及其语义应用[D]. 宣腾.电子科技大学 2013
[6]
基于Web结构的表格信息抽取研究[D]. 刘颖.合肥工业大学 2012
[7]
WordNet[J] . George A. Miller.Communications of the ACM . 1995 (11)
←
1
→