基于DOM模型扩展的Web信息提取

被引:18
作者
顾韵华
田伟
机构
[1] 南京信息工程大学计算机与软件学院
关键词
文档对象模型; Web信息提取; 影响度因子; DOM树扩展;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。
引用
收藏
页码:235 / 237+289 +289
页数:4
相关论文
共 6 条
[1]   基于Web部件的个性化网站创建技术 [J].
冯艳为 ;
王成良 .
重庆工学院学报(自然科学版), 2008, (02) :121-126
[2]   基于重复模式的Web信息抽取 [J].
高强 ;
张敬之 ;
耿桦 ;
潘金贵 .
计算机科学, 2007, (04) :210-212+221
[3]   模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (S1) :1743-1747
[4]   基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792
[5]  
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
[6]   Machine learning for information extraction in informal domains [J].
Freitag, Dayne .
Machine Learning, 2000, 39 (02) :169-202