基于决策树的汉语未登录词识别

被引:103
作者
秦文
苑春法
机构
[1] 清华大学计算机系,清华大学计算机系智能技术与系统国家重点实验室,北京,智能技术与系统国家重点实验室,北京
关键词
人工智能; 自然语言处理; 未登录词识别; 数据挖掘; 决策树; C4.5算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和‘分’(分为两单字词 )两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识 :前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4 5算法生成了决策树。在分词程序已经识别出一定数量的未登录词[6 ] 而仍有分词碎片情况下使用该方法 ,开放测试的召回率 ;6 9 4 2 % ,正确率 :4 0 4 1%。实验结果表明 ,基于决策树的未登录词识别是一种值得继续探讨的方法。
引用
收藏
页码:14 / 19
页数:6
相关论文
共 2 条
[1]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
[2]