共 3 条
基于无指导学习策略的无词表条件下的汉语自动分词
被引:37
作者:
孙茂松
肖明
邹嘉彦
机构:
[1] 清华大学智能技术与系统国家重点实验室
[2] 香港城市大学语言资讯科学研究中心
来源:
关键词:
汉语自动分词;
无指导学习;
汉字Bigram;
互信息与t-测试的组合;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法 ,以期对研制开放环境下健壮的分词系统有所裨益 .全部分词知识源自从生语料库中自动获得的汉字Bigram .在字间互信息和t 测试差的基础上 ,提出了一种将两者线性叠加的新的统计量md ,并引入了峰和谷的概念 ,进而设计了相应的分词算法 .大规模开放测试结果显示 ,该算法关于字间位置的分词正确率为 85 .88% ,较单独使用互信息或t 测试差分别提高了 2 4 7%和 5 6 6 % .
引用
收藏
页码:736 / 742
页数:7
相关论文