采用开放语料库的跨领域模式自动获取

被引:1
作者
曾兴杰
李芳
张冬茉
机构
[1] 上海交通大学计算机系
[2] 上海交通大学计算机系 上海
[3] 上海
关键词
模式自动获取; 开放语料库; 跨领域; 模式和实例的二元性; 统计判断模型; 正反实例判断;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
信息抽取模式的自动获取不仅能极大地减少所需的工作量,而且对于信息抽取系统的可扩充性和可移植性都至关重要。该文提出的采用开放语料库的跨领域模式自动获取方法是采用开放的训练语料库来自动生成领域无关的抽取模式,借助模式和实例之间的二元性,不断获取新的语料对系统进行训练,从而克服以往训练语料库规模较小的缺点。该方法尽可能减少了领域相关性,领域移植的代价很小。由于采用开放语料,该文提出了一种通过机器学习使用统计模型来自动选取用于模式生成和评价的正反实例的方法。根据在投资领域的测试结果,该方法获得了较好的效果,模式抽取的平均查准率达到92%,平均召回率达到42.4%。
引用
收藏
页码:259 / 263+293 +293
页数:6
相关论文
共 1 条
[1]   Learning Information Extraction Rules for Semi-Structured and Free Text [J].
Stephen Soderland .
Machine Learning, 1999, 34 :233-272