共 1 条
信息检索用户查询语句的停用词过滤
被引:16
作者:
熊文新
[1
]
宋柔
[2
]
机构:
[1] 北京外国语大学中国外语教育研究中心
[2] 北京语言大学语言信息处理研究所
来源:
关键词:
用户查询;
停用词;
构造;
识别;
D O I:
暂无
中图分类号:
TP391.3 [检索机];
学科分类号:
摘要:
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。
引用
收藏
页码:195 / 197
页数:3
相关论文