基于相似度的中文网页正文提取算法

被引:3
作者
熊子奇
张晖
林茂松
机构
[1] 西南科技大学计算机科学与技术学院
关键词
内容相似度; 标签相似度; 分块; 文本挖掘;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。
引用
收藏
页码:80 / 84
页数:5
相关论文
共 5 条
[1]   网页正文信息抽取新方法 [J].
宋明秋 ;
张瑞雪 ;
吴新涛 ;
李文立 .
大连理工大学学报, 2009, 49 (04) :594-597
[2]   基于FFT的网页正文提取算法研究与实现 [J].
李蕾 ;
王劲林 ;
白鹤 ;
胡晶晶 .
计算机工程与应用 , 2007, (30) :148-151
[3]   基于分块的网页信息解析器的研究与设计 [J].
于满泉 ;
陈铁睿 ;
许洪波 .
计算机应用, 2005, (04) :974-976
[4]  
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
[5]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)