基于决策树的汉语未登录词识别

被引：103

作者：

秦文

苑春法

机构：

[1] 清华大学计算机系,清华大学计算机系智能技术与系统国家重点实验室,北京,智能技术与系统国家重点实验室,北京

来源：

中文信息学报 | 2004年 / 01期

关键词：

人工智能; 自然语言处理; 未登录词识别; 数据挖掘; 决策树; C4.5算法;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

未登录词识别是汉语分词处理中的一个难点。在大规模中文文本的自动分词处理中 ,未登录词是造成分词错识误的一个重要原因。本文首先把未登录词识别问题看成一种分类问题。即分词程序处理后产生的分词碎片分为‘合’(合成未登录词 )和‘分’(分为两单字词 )两类。然后用决策树的方法来解决这个分类的问题。从语料库及现代汉语语素数据库中共统计出六类知识 :前字前位成词概率、后字后位成词概率、前字自由度、后字自由度、互信息、单字词共现概率。用这些知识作为属性构建了训练集。最后用C4 5算法生成了决策树。在分词程序已经识别出一定数量的未登录词[6 ] 而仍有分词碎片情况下使用该方法 ,开放测试的召回率 ;6 9 4 2 % ,正确率 :4 0 4 1%。实验结果表明 ,基于决策树的未登录词识别是一种值得继续探讨的方法。

引用

页码：14 / 19

页数：6