互联网商品信息抽取技术

被引:5
作者
于鲁波 [1 ]
陈超 [2 ]
机构
[1] 中国科学技术大学电子工程与信息科学系
[2] 多媒体计算与通信教育部微软重点实验室
关键词
网页分割; 网页信息抽取; 包装器; 路径聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对网页信息抽取中格式多样化的问题,提出一种基于路径统计聚类的信息抽取算法。该算法充分利用电子商务网站网页的特点,给出网页统计信息的一般数学表达式,在此基础上,采用基于统计聚类的思想,分割信息块,实现抽取信息。通过对实际电子商务网站网页信息的抽取,证明算法的有效性,分割正确率达92.27%,信息抽取正确率达98.24%。
引用
收藏
页码:274 / 276
页数:3
相关论文
共 1 条
[1]   基于路径学习的信息自动抽取方法 [J].
于琨 ;
蔡智 ;
糜仲春 ;
蔡庆生 .
小型微型计算机系统, 2003, (12) :2147-2149