基于统计的常用词搭配(Collocation)的发现方法

被引:15
作者
孙健
王伟
钟义信
机构
[1] 北京邮电大学智能研究中心
关键词
常用词搭配; 二元组; 自然语言处理;
D O I
暂无
中图分类号
G350 [情报学];
学科分类号
摘要
常用词搭配 (collocation)是指一些常用的用来表达某些事情或事物的短语 ,一般是二元组或三元组等。常用词搭配的自动发现在自然语言处理中起着很重要的作用 ,它能够丰富词典的容量 ,提高系统的性能。本文提出 4种判断一个二元组是否是常用词搭配的方法 ,并对各种方法的结果进行了比较。然后在已知二元组的基础上 ,提出了统计和发现三元或多元组的方法。这种利用二元组来构造三元组的方法 ,比统计所有三元组的计算量大大减少。实验证明这种方法的结果较好
引用
收藏
页码:12 / 16
页数:5
相关论文
共 1 条
[1]  
统计与优化.[M].秦明达;范玉妹编著;.冶金工业出版社.1998,