面向中文网络百科的属性和属性值抽取

被引:11
作者
贾真
杨宇飞
何大可
刘胜久
尹红风
机构
[1] 西南交通大学信息科学与技术学院
关键词
知识获取; 属性抽取; 非结构化文本; 模式挖掘;
D O I
10.13209/j.0479-8023.2014.007
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对面向中文网络百科条目文章的属性和属性值抽取,提出一种无监督方法。此方法将属性值看做命名实体,利用频繁模式挖掘和关联分析,从文本中抽取类别属性;采用自扩展方法为属性建立触发词表;基于属性触发词和属性值实体标注挖掘属性值抽取模式,利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验,结果表明所提方法行之有效。
引用
收藏
页码:41 / 47
页数:7
相关论文
共 10 条