基于质子串分解的中文术语自动抽取

被引:19
作者
何婷婷 [1 ]
张勇 [2 ]
机构
[1] 清华大学软件学院
[2] 华中师范大学计算机科学系
关键词
质子串分解; 术语自动抽取; C-value; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上,进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。
引用
收藏
页码:188 / 190
页数:3
相关论文
共 2 条
  • [1] 刘建舟,何婷婷,姬东鸿,刘晓华.基于开放式语料的汉语术语的自动抽取[C].20th International Conference on Computer Processing of Oriental Languages,2003:55-61
  • [2] Frantzi K,Ananiadou S.Extracting Nested Collocations[K].Proc.of the 16th Conference on Computational Linguistics,Copenhagen,1996