Web页面中文文本主题的自动提取研究

被引:12
作者
韩客松
王永成
滕伟
机构
[1] 上海交通大学!上海
关键词
Web页面文本; 主题抽取 加权;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。
引用
收藏
页码:217 / 223
页数:7
相关论文
共 2 条
[1]   一种高效的中文电子词表数据结构 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (01) :109-116
[2]   Internet网络信息自动摘要的研究 [J].
陈桂林 ;
王永成 .
高技术通讯, 1999, (02) :35-38