基于向量空间模型的文本过滤系统

被引:93
作者
黄萱菁
夏迎炬
吴立德
机构
[1] 复旦大学计算机科学与工程系
[2] 复旦大学计算机科学与工程系 上海
[3] 上海
关键词
文本检索; 文本过滤; 文本分类; 机器学习; 向量空间模型;
D O I
10.13328/j.cnki.jos.2003.03.017
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.
引用
收藏
页码:435 / 442
页数:8
相关论文
共 1 条
[1]   独立于语种的文本分类方法 [J].
黄萱菁 ;
吴立德 ;
石崎洋之 ;
徐国伟 .
中文信息学报, 2000, (06) :1-7