基于语义的科技文献共享平台的信息抽取系统

被引:0
作者
黄泽武
机构
[1] 华中科技大学
关键词
信息抽取; 模板匹配; 有限自动机; 多项式拟合; 科技文献;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着Internet和个人计算机的普及,科技文献的数量以指数的速度激增。如何从科技文献中抽取出有用的信息以供快速、准确地从浩瀚的信息资源中寻找到所需科技文献是十分有意义的事情。而现有的一些信息抽取方法存在适应性差、维护困难、实现复杂、抽取效率不高等缺点。 针对以上问题,基于语义的科技文献共享平台-SemreX的信息抽取系统针对科技文献的头部信息(标题、作者和摘要)和尾部信息(参考文献的标题、作者、出版物和年份)的不同特点,提出了基于模板匹配的头部信息抽取算法和基于统计的尾部信息抽取算法,并通过信息抽取预处理、模板定义与匹配、样式统计、多项式拟合等措施,提高了信息抽取的抽准率、召回率、F-measure和正确率。基于模板匹配的头部信息抽取算法基本思想是:分析头部信息的文本特征;根据文本特征定义相应的模板并赋予权值;组合各个头部信息的模板形成头部信息的模板库;按照模版匹配算法,通过有限自动机寻找与待抽取的科技文献头部信息匹配权重最大的模板;根据匹配所得的模板抽取各个头部信息。基于统计的尾部信息抽取算法基本思想是:统计尾部信息的样式和各个特殊符号等信息;对统计数据进行多项式拟合,得到概率经验公式;根据概率经验公式计算各个尾部信息相应的概率并进行比较,从而抽取科技文献尾部信息;采用自然语言处理技术对所得的尾部信息进行验证、修正和补充。 基于Windows操作系统平台,采用Java、Perl语言实现了SemreX的信息抽取系统,并且对系统进行了测试。功能测试表明:对于科技文献的头部信息和尾部信息的抽取功能正常。科技文献头部信息抽取性能测试结果表明:科技文献的标题、作者和摘要的抽准率分别为91.9%、86.2%和81.5%;召回率分别为89.1%、84.4%和80.2%;F-measure分别为90.4%、88.5%和80.8%;正确率分别为96.3%、80.2%和88.4%。尾部信息抽取性能测试结果表明:尾部信息的标题、作者、出版物和年份的抽准率分别为89.9%、91.2%、81.9%和88.3%;召回率分别为80.3%、87.3%、78.9%和87.0%; F-measure分别为86.5%、89.1%、80.5%和86.4%;正确率分别为84.9%、84.5%、77.9%和87.6%。
引用
收藏
页数:77
共 13 条
[1]
Machine learning for information extraction in informal domains [J].
Freitag, D .
MACHINE LEARNING, 2000, 39 (2-3) :169-202
[2]
Learning information extraction rules for semi-structured and free text [J].
Soderland, S .
MACHINE LEARNING, 1999, 34 (1-3) :233-272
[3]
Generating finite-state transducers for semi-structured data extraction from the Web [J].
Hsu, CN ;
Dung, MT .
INFORMATION SYSTEMS, 1998, 23 (08) :521-538
[4]
SemreX中基于语义的文档参考文献元数据信息提取 [J].
郭志鑫 ;
金海 ;
陈汉华 .
计算机研究与发展, 2006, (08) :1368-1374
[5]
基于粗集的模糊属性值信息系统的知识获取 [J].
邱卫根 .
计算机工程与应用, 2006, (20) :138-140
[6]
SemreX:一种基于语义相似度的P2P覆盖网络 [J].
陈汉华 ;
金海 ;
宁小敏 ;
袁平鹏 ;
武浩 ;
郭志鑫 .
软件学报, 2006, (05) :1170-1181
[7]
基于因果图的一种知识获取方法 [J].
王洪春 .
计算机仿真, 2006, (03) :126-128
[8]
命名实体识别研究 [J].
张晓艳 ;
王挺 ;
陈火旺 .
计算机科学, 2005, (04) :44-48
[9]
数字图书馆中基于关系图的篇章分析方法研究 [J].
刘平兰 .
情报杂志, 2003, (12) :88-89+92
[10]
基于粗集的汉语词语义项知识的获取 [J].
杨尔弘 ;
郝秀兰 ;
李盛 .
中文信息学报, 2002, (03) :27-33