共 2 条
Web页面中文文本主题的自动提取研究
被引:12
作者:
韩客松
王永成
滕伟
机构:
[1] 上海交通大学!上海
来源:
关键词:
Web页面文本;
主题抽取 加权;
D O I:
暂无
中图分类号:
TP393 [计算机网络];
学科分类号:
081201 ;
1201 ;
摘要:
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。
引用
收藏
页码:217 / 223
页数:7
相关论文