基于结构与内容的网页主题信息提取研究

被引:40
作者
吴鹏飞
孟祥增
刘俊晓
马凤娟
机构
[1] 山东师范大学传播学院
关键词
映射表; 启发式规则; HTML; 区域分割; 向量空间模型;
D O I
暂无
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.
引用
收藏
页码:131 / 134
页数:4
相关论文
共 8 条
[1]
基于标记树的Web页面区域划分和搜索方法 [J].
胡飞 .
计算机科学, 2005, (08) :182-185
[2]
基于分块的网页信息解析器的研究与设计 [J].
于满泉 ;
陈铁睿 ;
许洪波 .
计算机应用, 2005, (04) :974-976
[3]
基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792
[4]
基于标记树表示方法的页面结构分析 [J].
常育红 ;
姜哲 ;
朱小燕 ;
不详 .
计算机工程与应用 , 2004, (16) :129-132
[5]
网页版面中区域几何信息的确定 [J].
朱精南 ;
赵明生 .
计算机工程, 2004, (10) :45-48
[6]
Web页面信息块的自动分割 [J].
瞿有利 ;
于浩 ;
徐国伟 ;
西野文人 .
中文信息学报, 2004, (01) :6-13
[7]
Web页面清洗技术的研究与实现 [J].
周源远 ;
王继成 ;
郑刚 ;
张福炎 .
计算机工程, 2002, (09) :48-50+197
[8]
数据挖掘与OLAP理论与实务.[M].林杰斌等编著;.清华大学出版社.2003,