基于链接分块的相关链接提取方法

被引:1
作者
王芳
于浩
谭红叶
赵铁军
机构
[1] 不详
[2] 哈尔滨工业大学计算机学院机器智能与翻译研究室
[3] 不详
关键词
网页分块; 链接块; 相关链接提取;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块。相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效。 更多 还原 AbstractFilter('ChDivSummary', 'ChDivSummaryMore', 'ChDivSummaryReset'); 关键词: 网页分块;链接块;相关链接提取; 基金资助: 富士通研发中心有限公司委托研究项目; 专辑: 信息科技 专题: 互联网技术 分类号: TP393.092 观看视频: 手机阅读 HTML阅读 CAJ下载 PDF下载 AI 辅助阅读 个人成果免费下载 下载:114 页码:110-113 页数:4 大小:40K 相关服务推荐 CNKI学术情报 > 智能审校 > 论文智能排版 > 学术评价支撑平台 > 引文网络 参考文献 引证文献 共引文献 同被引文献 二级参考文献 二级引证文献 相关文献推荐 相似文献 读者推荐 相关基金文献 关联作者 相关视频 批量下载 HTML阅读 CAJ下载 PDF下载 读者服务 购买知网卡 充值中心 我的CNKI 帮助中心 CNKI常用软件下载 CAJViewer浏览器 知网研学(原E-Study) 下载中心 标准阅读器 特色服务 手机知网 知网文化 知网阅读 编创服务 客服咨询 订卡热线:400-819-9993 服务热线:400-810-9888 在线咨询:service.cnki.net 邮件咨询:help@cnki.net 新浪微博客服 官方微信 关于我们 CNKI 荣誉 版权公告 客服中心 用户建议 知网招聘 © 1998-2023 中国知网(CNKI) 中国知网(CNKI) 违法和不良信息举报电话:400-062-8866 举报邮箱:jubao@cnki.net document.getElementById("thisYear").innerHTML = (new Date).getFullYear() 京 ICP 证 040431 号 网络出版服务许可证 (总)网出证(京)字第 271 号 出版物经营许可证 京公网安备 11010802020460 号 互联网宗教信息服务许可证:京(2022)0000115 《中国学术期刊(光盘版)》电子杂志社有限公司 KDN 平台基础技术由 KBASE 11.0 提供. new sideInfo(); backTop(); var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?dcec09ba2227fd02c55623c1bb82776a"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();
引用
收藏
页码:110 / 113
页数:4
相关论文
共 1 条
[1]  
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)