基于卡方检验的汉语术语抽取

被引:12
作者
胡文敏
何婷婷
张勇
机构
[1] 华中师范大学计算机科学系
关键词
卡方检验; 质子串分解; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
发现术语在中文信息处理和语言学习方面具有非常重要的作用和意义。提出了一种基于卡方检验的汉语术语抽取方法:先从网络上下载语料,然后使用改进的互信息参数(F-M I)抽取结构简单的质串,并在其基础上进一步使用卡方检验结合质子串分解方法抽取具有复杂结构的合串。实验结果显示,该算法有效地提高了汉语术语抽取的精确度。
引用
收藏
页码:3019 / 3020+3025 +3025
页数:3
相关论文
共 3 条
  • [1] A statistical corpus-based term extractor. PANTEL P,LIN D K. Proceedings of the 14th Biennial Conference of the Canadian So-ciety on Computational Studies of Intelligence:Advances in ArtificialIntelligence . 2001
  • [2] An integrated method for Chinese unknownword extraction[C/OL]. LUO Z Y,SONG R. Proceedings of Third SIGHAN Workshopon Chinese . 2007
  • [3] Extracting nested collocations. FRANTZI K T,ANANIADOU S. Proceedings of the 16th International Conference On Compu-tational Linguistics . 1996