基于Multigram语言模型的主动学习中文分词

被引：24

作者：

冯冲 ^{[1
]}

陈肇雄 ^{[2
]}

黄河燕 ^{[2
]}

关真珍 ^{[2
]}

机构：

[1] 中国科学技术大学计算机科学与技术系

[2] 中国科学院计算机语言信息工程研究中心

来源：

中文信息学报 | 2006年 / 01期

关键词：

计算机应用; 中文信息处理; 分词; 无督导机器学习; 主动学习; EM算法;

D O I：

暂无

中图分类号：

TP391.12 [];

学科分类号：

摘要：

分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。

引用

页码：50 / 58

页数：9