中心网页中主题网页链接的自动抽取

被引:3
作者
夏天 [1 ,2 ]
机构
[1] 数据工程与知识工程教育部重点实验室(中国人民大学)
[2] 中国人民大学信息资源管理学院
关键词
链接抽取; 扩展标记树; 链接前缀树;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。
引用
收藏
页码:25 / 31
页数:7
相关论文
共 12 条
[1]  
http://home.ccil.org/-cowan/XML/tagsoup/ .
[2]  
http://www.hylanda.com/menu.php?mid=12 .
[3]  
Extracting multi-records from web pages. XIA Tian. Proceedings of the 4th International Conference onSKG . 2008
[4]  
http://www.qianfan360.com/ .
[5]  
https://jsoup.org/ .
[6]  
Topical locality in the web. Davison,B.D. Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval . 2000
[7]  
Mining data records in web pages. Liu B,Grossman RL,Zhai YH. Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . 2003
[8]  
搜索引擎[M]. 科学出版社 , 李晓明,闫宏飞,王继民著, 2005
[9]  
基于web的网页链接与正文抽取技术研究[D]. 蒲宇达.哈尔滨工业大学 2006
[10]   基于链接分块的相关链接提取方法 [J].
王芳 ;
于浩 ;
谭红叶 ;
赵铁军 .
计算机工程与应用 , 2006, (31) :110-113