基于质子串分解的中文术语自动抽取

被引：19

作者：

何婷婷 ^{[1
]}

张勇 ^{[2
]}

机构：

[1] 清华大学软件学院

[2] 华中师范大学计算机科学系

来源：

计算机工程 | 2006年 / 23期

关键词：

质子串分解; 术语自动抽取; C-value; 互信息;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。

引用

页码：188 / 190

页数：3