一种面向中文网络百科非结构化信息的知识获取方法

被引:6
作者
王汀
冀付军
徐天晟
机构
[1] 不详
[2] 首都经济贸易大学信息学院
[3] 不详
关键词
中文知识库; 网络开放百科; 新词发现; 条件随机场; 支持向量机;
D O I
10.13266/j.issn.0252-3116.2016.13.016
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
[目的 /意义]在进行大规模知识库构建时,基于手工方式的构建模式效率较低并且可行性较差,因此,从网络百科中自动地获取海量知识已经被越来越多的学者所关注。目前的研究主要关注于从英文网络百科数据源进行海量知识的抽取,而面向中文百科数据源进行的知识抽取研究工作尚处于起步阶段。[方法 /过程]为解决中文大规模知识库的构建问题,提出一种新的基于中文网络百科架构的大规模知识库的自动化构建方法:在第一阶段,对知识三元组中的主语和宾语之间的语义关系进行自扩展学习;在第二阶段,基于条件随机场和支持向量机协同分类器,对标注出的属性和属性值实体之间的语义关系进行预测。[结果 /结论]实验评测结果表明,该方法较前人工作在典型中文百科分类页面中的实体识别查准率和查全率分别最高有约10%和6%的提升。
引用
收藏
页码:126 / 133
页数:8
相关论文
共 11 条
  • [1] 基于数据场和全局序列比对的大规模中文关联数据模型
    王汀
    徐天晟
    冀付军
    [J]. 中文信息学报, 2016, 30 (03) : 204 - 212
  • [2] 基于同义扩展的在线百科中实体属性抽取
    刘倩
    刘冰洋
    贺敏
    伍大勇
    刘悦
    程学旗
    [J]. 中文信息学报, 2016, 30 (01) : 16 - 23+29
  • [3] 面向中文网络百科的属性和属性值抽取
    贾真
    杨宇飞
    何大可
    刘胜久
    尹红风
    [J]. 北京大学学报(自然科学版), 2014, 50 (01) : 41 - 47
  • [4] 领域本体概念实例、属性和属性值的抽取及关系预测
    郭剑毅
    李真
    余正涛
    张志坤
    [J]. 南京大学学报(自然科学版), 2012, 48 (04) : 383 - 389
  • [5] Knowledge extraction from Chinese wiki encyclopedias[J]. Jeff Z.PAN. Journal of Zhejiang University-Science C(Computers & Electronics). 2012(04)
  • [6] 基于Web弱指导的本体概念实例及属性的同步提取
    康为
    穗志方
    [J]. 中文信息学报, 2010, 24 (01) : 54 - 59
  • [7] 基于优序图加权的多维稀疏模糊推理方法
    刘文远
    武丽霞
    王宝文
    [J]. 计算机工程, 2009, 35 (11) : 210 - 212+215
  • [8] 同义词词林[M]. 上海辞书出版社 , 梅家驹, 1983
  • [9] DBpedia - A crystallization point for the Web of Data
    Bizer, Christian
    Lehmann, Jens
    Kobilarov, Georgi
    Auer, Soeren
    Becker, Christian
    Cyganiak, Richard
    Hellmann, Sebastian
    [J]. JOURNAL OF WEB SEMANTICS, 2009, 7 (03): : 154 - 165
  • [10] YAGO: A Large Ontology from Wikipedia and WordNet[J] . Fabian M. Suchanek,Gjergji Kasneci,Gerhard Weikum. Web Semantics: Science, Services and Agents on the World Wide Web . 2008 (3)