共 1 条
互联网商品信息抽取技术
被引:5
作者:
于鲁波
[1
]
陈超
[2
]
机构:
[1] 中国科学技术大学电子工程与信息科学系
[2] 多媒体计算与通信教育部微软重点实验室
来源:
关键词:
网页分割;
网页信息抽取;
包装器;
路径聚类;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
针对网页信息抽取中格式多样化的问题,提出一种基于路径统计聚类的信息抽取算法。该算法充分利用电子商务网站网页的特点,给出网页统计信息的一般数学表达式,在此基础上,采用基于统计聚类的思想,分割信息块,实现抽取信息。通过对实际电子商务网站网页信息的抽取,证明算法的有效性,分割正确率达92.27%,信息抽取正确率达98.24%。
引用
收藏
页码:274 / 276
页数:3
相关论文