基于信息熵的半监督领域实体关系抽取研究

被引:3
作者
郭剑毅 [1 ,2 ]
雷春雅 [1 ]
余正涛 [1 ,2 ]
苏磊 [1 ,2 ]
赵君 [1 ]
田维 [1 ]
机构
[1] 昆明理工大学信息工程与自动化学院
[2] 昆明理工大学智能信息处理重点实验室
关键词
信息熵; 半监督; 最大熵分类器; 未标记; 可信度;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。
引用
收藏
页码:7 / 12
页数:6
相关论文
共 17 条
[1]   基于自扩展与最大熵的领域实体关系自动抽取 [J].
雷春雅 ;
郭剑毅 ;
余正涛 ;
毛存礼 ;
张少敏 ;
黄甫 .
山东大学学报(工学版), 2010, 40 (05) :141-145
[2]   基于特征选择和最大熵模型的汉语词义消歧 [J].
何径舟 ;
王厚峰 .
软件学报, 2010, 21 (06) :1287-1295
[3]   基于层叠条件随机场的旅游领域命名实体识别 [J].
郭剑毅 ;
薛征山 ;
余正涛 ;
张志坤 ;
张宜浩 ;
姚贤明 .
中文信息学报, 2009, (05) :47-52
[4]   基于图的半监督关系抽取 [J].
陈锦秀 ;
姬东鸿 .
软件学报, 2008, (11) :2843-2852
[5]   实体关系抽取的技术方法综述 [J].
徐健 ;
张智雄 ;
吴振新 .
现代图书情报技术, 2008, (08) :18-23
[6]   领域本体的关系抽取研究 [J].
何琳 .
现代图书情报技术, 2008, (04) :35-38
[7]   基于分层策略的弱指导语义关系抽取 [J].
奚斌 ;
周国栋 ;
钱龙华 ;
潘珅 .
广西师范大学学报(自然科学版), 2008, (01) :178-181
[8]   基于信息增益的特征词权重调整算法研究 [J].
张玉芳 ;
陈小莉 ;
熊忠阳 .
计算机工程与应用 , 2007, (35) :159-161
[9]   信息抽取技术的发展现状及构建方法的研究 [J].
刘迁 ;
焦慧 ;
贾惠波 .
计算机应用研究, 2007, (07) :6-9
[10]   中文实体关系抽取中的特征选择研究 [J].
董静 ;
孙乐 ;
冯元勇 ;
黄瑞红 .
中文信息学报, 2007, (04) :80-85+91