基于统计的常用词搭配(Collocation)的发现方法

被引：15

作者：

孙健

王伟

钟义信

机构：

[1] 北京邮电大学智能研究中心

来源：

情报学报 | 2002年 / 01期

关键词：

常用词搭配; 二元组; 自然语言处理;

D O I：

暂无

中图分类号：

G350 [情报学];

学科分类号：

摘要：

常用词搭配 (collocation)是指一些常用的用来表达某些事情或事物的短语 ,一般是二元组或三元组等。常用词搭配的自动发现在自然语言处理中起着很重要的作用 ,它能够丰富词典的容量 ,提高系统的性能。本文提出 4种判断一个二元组是否是常用词搭配的方法 ,并对各种方法的结果进行了比较。然后在已知二元组的基础上 ,提出了统计和发现三元或多元组的方法。这种利用二元组来构造三元组的方法 ,比统计所有三元组的计算量大大减少。实验证明这种方法的结果较好

引用

页码：12 / 16

页数：5