信息检索用户查询语句的停用词过滤

被引:16
作者
熊文新 [1 ]
宋柔 [2 ]
机构
[1] 北京外国语大学中国外语教育研究中心
[2] 北京语言大学语言信息处理研究所
关键词
用户查询; 停用词; 构造; 识别;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。
引用
收藏
页码:195 / 197
页数:3
相关论文
共 1 条
  • [1] 中文停用词表的自动选取
    顾益军
    樊孝忠
    王建华
    汪涛
    黄维金
    [J]. 北京理工大学学报, 2005, (04) : 337 - 340