基于内容相似度的网页正文提取

被引:18
作者
王利 [1 ]
刘宗田 [1 ]
王燕华 [2 ]
廖涛 [1 ]
机构
[1] 上海大学计算机科学与工程学院
[2] 上海海洋大学信息学院
关键词
网页正文抽取; 网页映射; 网页清洗; 文本相似度;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。
引用
收藏
页码:102 / 104
页数:3
相关论文
共 4 条
[1]   基于网页框架和规则的网页噪音去除方法 [J].
时达明 ;
林鸿飞 ;
杨志豪 .
计算机工程, 2007, (19) :276-278
[2]   Web网页中动态数据区域的识别与抽取 [J].
黄健斌 ;
姬红兵 ;
孙鹤立 .
计算机工程, 2007, (11) :53-55+58
[3]   基于标记窗的网页正文信息提取方法 [J].
赵欣欣 ;
索红光 ;
刘玉树 .
计算机应用研究, 2007, (03) :144-145+180
[4]   基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792