网络舆情中的信息预处理与自动摘要算法

被引:8
作者
廉捷
刘云
机构
[1] 北京交通大学电子信息工程学院
基金
北京市自然科学基金; 中央高校基本科研业务费专项资金资助;
关键词
自动摘要; 网页预处理; 信息抽取; 倒排索引; 网络舆情;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法.
引用
收藏
页码:94 / 99
页数:6
相关论文
共 8 条
[1]   基于自动生成模板的Web信息抽取技术 [J].
张彦超 ;
刘云 ;
李勇 ;
沈波 .
北京交通大学学报, 2009, 33 (05) :40-45
[2]   模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (S1) :1743-1747
[3]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969
[4]   基于倒排索引的文本相似搜索 [J].
杨建武 ;
陈晓鸥 .
计算机工程, 2005, (05) :1-3
[5]   基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[6]   自动文摘的四种主要方法 [J].
刘挺 ;
王开铸 .
情报学报, 1999, (01) :10-19
[7]  
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
[8]  
CNNIC中国互联网络发展状况统计报告 .2 中国互联网络信息中. http:∥www.cnnic.net.cn . 2009