中文分词模型的领域适应性方法

被引:192
作者
韩冬煦
常宝宝
机构
[1] 北京大学信息科学技术学院计算语言学研究所计算语言学教育部重点实验室
关键词
卡方统计量; 边界熵; 领域适应性; 自举算法; 中文分词; 社会计算; 社交网络;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
字标注分词方法是当前中文分词领域中一种较为有效的分词方法.但因为受制于训练语料的领域和规模,该方法在领域适应性方面效果不佳,影响了该方法在应用系统中的实际应用.在文中,作者提出使用卡方统计量以及边界熵提升未登录词的处理能力,并结合自学习和协同学习策略进一步改善字标注分词方法在领域适应性方面的性能.实验结果证实,文中提出的这些方法有效改善了分词方法的领域适应性.
引用
收藏
页码:272 / 281
页数:10
相关论文
共 4 条
[1]
中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[2]
Computers and the Theory of Statistics: Thinking the Unthinkable[J] Bradley Efron SIAM Review 1979,
[3]
Bootstrap Methods: Another Look at the Jackknife[J] B. Efron The Annals of Statistics 1979,
[4]
Chinese Word Segmentation as Character Tagging Nianwen Xue; Computational Linguistics and Chinese Language Processing 2003,