基于语料库的语言建模

被引：8

作者：

许伟

苑春法

黄昌宁

机构：

[1] 清华大学计算机科学与技术系

[2] 智能技术与系统国家重点实验室

来源：

清华大学学报(自然科学版) | 1997年 / 03期

关键词：

语言模型；参数求解；数据稀疏；有指导学习；无指导学习;

D O I：

10.16511/j.cnki.qhdxxb.1997.03.017

中图分类号：

TP392 [各种专用数据库];

学科分类号：

摘要：

语料库语言学的发展的核心问题是语言模型的建立问题。常用的语言模型可以概括为三类：（１）ｎ元模型（及隐马尔可夫模型）；（２）基于分布理论的模型；（３）基于规则的模型。基于语料库的建模过程就是对语言模型的参数进行求解的过程，也可以认为是一个机器学习的过程。它可分为两大类别：（１）有指导学习；（２）无指导学习。本文着重论述了近年发展的热点——无指导学习的各种技术和影响参数可信度的数据稀疏问题及其解决办法。

引用

页码：72 / 76

页数：5