一种新的Web链接提取模型

被引：4

作者：

苏杭 ^{[1
]}

严建援 ^{[2
]}

机构：

[1] EECS Department,Vanderbilt University,Nashville,TN 37235,USA 2. 南开大学商学院

来源：

清华大学学报(自然科学版) | 2006年 / S1期

关键词：

搜索引擎; 链接提取; 统一资源地址(URI);

D O I：

10.16511/j.cnki.qhdxxb.2006.s1.013

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

以搜索引擎链接提取模块所要求的容错性、正确性、全面性、高效性和可扩展性为目标,提出了一种新的链接提取模型的设计思路。该模型将链接提取过程划分为信息提取、信息加工、信息分析和信息储存。信息的获取是通过HTM L(hypertex t m arkup language)文法分析方法从文档中得到初始统一资源地址(un iform resourceiden tifier,UR I)数据;信息加工阶段通过运用UR I解析算法对初始数据进行精练;然后在信息分析过程中进一步加以筛选和过滤;最后将结果存储在一个灵活的数据结构中。通过对比测试证实这种新的链接提取模式比传统方法在各项指标上均具有明显优势。

引用

页码：975 / 982

页数：8