利用串匹配技术实现网上新闻的主题提取(英文)

被引:6
作者
尹中航
王永成
蔡巍
韩客松
机构
[1] 上海交通大学电子信息学院
[2] 上海交通大学电子信息学院 上海
关键词
网页信息处理; 网上新闻; 主题提取; 串匹配; 词;
D O I
10.13328/j.cnki.jos.2002.02.001
中图分类号
TP393.03 [];
学科分类号
081201 ; 1201 ;
摘要
从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言.
引用
收藏
页码:159 / 167
页数:9
相关论文
共 2 条
[1]   Internet网络信息自动摘要的研究 [J].
陈桂林 ;
王永成 .
高技术通讯, 1999, (02) :35-38
[2]  
当代分类法主题法索引法研究[M]. - 书目文献出版社 , 侯汉清编著, 1993