基于N元语言模型的文本分类方法

被引:11
作者
周新栋
王挺
机构
[1] 国防科技大学计算机学院
关键词
文本分类; N元语言模型; 参数平滑;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计并实现一个基于词的2元语言模型分类器。通过N元语言模型与传统分类模型(向量空间模型和NaiveBayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能。
引用
收藏
页码:11 / 13+16 +16
页数:4
相关论文
共 14 条
[1]   一种限定性的双层贝叶斯分类模型 [J].
石洪波 ;
王志海 ;
黄厚宽 ;
励晓健 .
软件学报, 2004, (02) :193-199
[2]   统计机器翻译综述 [J].
刘群 .
中文信息学报, 2003, (04) :1-12
[3]   基于统计分词的中文网页分类 [J].
黄科 ;
马少平 .
中文信息学报, 2002, (06) :25-31
[4]   基于支持向量机的中文文本自动分类研究 [J].
都云琪 ;
肖诗斌 .
计算机工程, 2002, (11) :137-138+289
[5]   一种基于N-Gram技术的中文文献自动分类方法 [J].
何浩 ;
杨海棠 .
情报学报, 2002, (04) :421-427
[6]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[7]   一种基于NA假设的训练数据自动构造方法 [J].
朱靖波 ;
张玫杰 ;
姚天顺 .
东北大学学报, 1999, (04) :366-368
[8]   汉语统计语言模型的N值分析 [J].
张树武 ;
黄泰翼 .
中文信息学报, 1998, (01) :36-42
[9]   基于语料库和面向统计学的自然语言处理技术 [J].
周强 .
计算机科学, 1995, (04) :36-40
[10]  
自然语言理解[M]. 清华大学出版社 , 姚天顺等编著, 2002