基于维基百科的领域历史沿革信息抽取

被引:5
作者
赵佳鹏
林民
机构
[1] 内蒙古师范大学计算机与信息工程学院
关键词
软件工程; 历史沿革; 信息抽取; 关键词抽取; TextRank;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对在软件工程的教学过程中,由于领域概念种类多、演变快,导致学生理解记忆困难的问题,提出了通过抽取软件工程领域历史沿革主题信息构建知识库的方法。该方法首先结合自然语言处理技术与Web信息抽取技术从维基百科的自由文本中抽取实体与实体关系构建候选集;再利用关键词抽取方法 TextRank从候选集中抽取与历史沿革关系最密切的实体关系;最后以关键实体关系为核心,抽取邻近的时间实体与概念实体组成五元组构建了知识库。在抽取信息的过程中,结合文本的语义信息对TextRank算法进行了改进,提高了抽取的准确率。实验结果表明,该知识库能够将软件工程领域的概念按时序特征组织在一起,验证了所提方法的有效性。
引用
收藏
页码:1021 / 1025+1044 +1044
页数:6
相关论文
共 14 条
[1]  
Open information extraction using Wikipedia. Wu, Fei,Daniel S Weld. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics . 2010
[2]   开放式信息抽取研究进展 [J].
杨博 ;
蔡东风 ;
杨华 .
中文信息学报, 2014, (04) :1-11+36
[3]   词语位置加权TextRank的关键词抽取研究 [J].
夏天 .
现代图书情报技术, 2013, (09) :30-34
[4]   Tag-TextRank:一种基于Tag的网页关键词抽取方法 [J].
李鹏 ;
王斌 ;
石志伟 ;
崔雅超 ;
李恒训 .
计算机研究与发展, 2012, 49 (11) :2344-2351
[5]  
Knowledge extraction from Chinese wiki encyclopedias[J]. Jeff Z.PAN.  Journal of Zhejiang University-Science C(Computers & Electronics). 2012(04)
[6]   开放式文本信息抽取 [J].
赵军 ;
刘康 ;
周光有 ;
蔡黎 .
中文信息学报, 2011, 25 (06) :98-110
[7]  
YAGO: A Large Ontology from Wikipedia and WordNet[J] . Fabian M. Suchanek,Gjergji Kasneci,Gerhard Weikum. &nbspWeb Semantics: Science, Services and Agents on the World Wide Web . 2008 (3)
[8]  
Information extraction. Sarawagi,Sunita. Foundations and Trends in Databases . 2007
[9]  
Zhishi me Weaving Chinese Linking Open Data. Xing Niu,Xinruo Sun,Haofen Wang,Shu Rong,Guilin Qi,Yong Yu. The Semantic Web-ISWC 2011 . 2011
[10]  
The tradeoffs between open and traditional relation extraction. BANKO M,ETZIONI O. proceedings of the 46th Annual Meeting of the Association for Computational Linguistics (ACL’’08) . 2008