基于字串内部结合紧密度的汉语自动抽词实验研究

被引:31
作者
罗盛芬
孙茂松
机构
[1] 智能技术与系统国家重点实验室清华大学计算机科学与技术系
关键词
计算机应用; 中文信息处理; 自动抽词; 统计量的组合; 遗传算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现 ,进而尝试将它们组合在一起 ,以期提高性能。为了达到尽可能好的组合效果 ,采用了遗传算法来自动调整组合权重。对二字词的自动抽词实验结果表明 ,这九种常用统计量中 ,互信息的抽词能力最强 ,F measure可达 5 4 77% ,而组合后的F measure为 5 5 4 7% ,仅比互信息提高了 0 70 % ,效果并不显著。我们的结论是 :( 1)上述统计量并不具备良好的互补性 ;( 2 )通常情况下 ,建议直接选用互信息进行自动抽词 ,简单有效。
引用
收藏
页码:9 / 14
页数:6
相关论文
共 5 条
  • [1] Measure of the amount of ecologic associations between species. Dice,L. R. Journal of Ecology . 1945
  • [2] Accurate methods for the statistics of surprise and coincidence. Dunning,T. Computational Linguistics . 1993
  • [3] Selectional constrains: an information- theoretic model and its computational realization. Resnik,P. Cognition . 1996
  • [4] Transmission of Information. Fano,R. . 1961
  • [5] Retrieving collocations from text: Xtract. Smadja,F. Computational Linguistics . 1993