Co-training机器学习方法在中文组块识别中的应用

被引：30

作者：

刘世岳

李珩

张俐

姚天顺

机构：

[1] 东北大学计算机软件与理论研究所

[2] 东北大学计算机软件与理论研究所辽宁沈阳

[3] 辽宁沈阳

来源：

中文信息学报 | 2005年 / 03期

关键词：

计算机应用; 中文信息处理; co-training算法; 中文组块; 分类器;

D O I：

暂无

中图分类号：

TP391.4 [模式识别与装置];

学科分类号：

081102 [检测技术与自动化装置];

摘要：

采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85 34%和83 4 1% ,分别提高了2 13%和7 2 1%。

引用

页码：73 / 79

页数：7