自定义主题信息抽取的研究与应用

被引:0
作者
陈浩
机构
[1] 大连理工大学
关键词
自定义主题; 信息抽取; 语义块; 块位置;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
当今社会,网站是人们获得信息的主要来源之一,可是在网站提供的信息里面难免掺杂着一些人们不关心的信息,如图片,广告,无关链接等。一些商业性网站已经发现了这些弊端,采用了“推”的技术,向互联网上的人们发布RSS种子,人们通过定制可以直接定位到所需信息,这样的信息准确,及时。但是,一些非商业性网站,还没有这样的一个统一的信息发布平台用于不同主题信息的定制,所以在进行信息获取方面上,要实现新、快、准的目标,就要主动的去其他网站上的信息源获取。 本文在自定义主题信息抽取的需求背景之下,通过对链接上下文算法和WEB目录型网页结构特点的研究,提出局部扩散算法来发现主题相关链接,从而确定主题链接块的位置,减少与主题无关的链接被发现的概率来满足自定义主题的需求。在主题信息抽取阶段,将网页HTML标签文档进行基于布局标签的划分,构造网页的粗粒度划分DOM树模型表示,通过文本语义分析,获取网页语义块的特征向量作为网页的量化表示,在进行抽取时利用网页本身文本语义进行,省去了通过大量训练集的训练来确定模板的阶段,而且通过实验证明该抽取算法有助于提高在抽取信息过程中的整体完整性,指出了适用的范围,并且在实际应用中采用语义块分析与语义块位置相结合的方式,直接定位抽取块,从而避免无关信息的抽取。 最后通过对主题信息抽取的研究和公安信息网页的研究与应用,建立了一个基于块位置的自定义主题信息抽取系统。解决了如何自动的、广泛的、准确的对不同网站上的主题信息进行抽取,并且根据对不同主题进行的自定义,可以将抽取的信息进行自定义分类,实现自动化的主题信息抽取。通过实验证明,此系统不仅对简单型网页在信息抽取上取得了很好的准确率和召回率,而且对一些密集型的门户网站在主题信息抽取上也取得了比较好的效果。系统现在应用于大连市刑侦大队网上作战子系统中,对网上作战系统的具体完善提供了信息基础。
引用
收藏
页数:59
共 15 条
[1]
基于双层决策的新闻网页正文精确抽取 [J].
胡国平 ;
张巍 ;
王仁华 .
中文信息学报, 2006, (06) :1-9+103
[2]
基于相似页面的Web信息抽取系统的实现 [J].
贡正仙 ;
朱巧明 ;
李培峰 .
计算机应用, 2006, (08) :1983-1986
[3]
模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (自然科学版) :1743-1747
[4]
基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792
[5]
基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[6]
WWW搜索引擎的数据采集技术 [J].
陈新明 ;
钟涛 ;
万钧 ;
吴杰 ;
张世永 ;
不详 .
计算机工程与应用 , 2002, (07) :145-147+161
[7]
搜索引擎Robot技术实现的原理分析 [J].
洪光宗 ;
王皓 .
现代图书情报技术, 2002, (01) :48-50
[8]
Web Robot技术及其Java实现 [J].
谭淑英 ;
刘丽华 .
中南工业大学学报(自然科学版), 2001, (03) :325-327
[9]
中文搜索引擎中的中文信息处理技术 [J].
邹海山 ;
吴勇 ;
吴月珠 ;
陈阵 .
计算机应用研究, 2000, (12) :21-24
[10]
中英文WWW搜索引擎中数据获取的设计与实现 [J].
荣传湘 ;
张晓辉 ;
常桂然 .
小型微型计算机系统, 1999, (05)