学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于N元语言模型的文本分类方法
被引:11
作者
:
周新栋
论文数:
0
引用数:
0
h-index:
0
机构:
国防科技大学计算机学院
周新栋
王挺
论文数:
0
引用数:
0
h-index:
0
机构:
国防科技大学计算机学院
王挺
机构
:
[1]
国防科技大学计算机学院
来源
:
计算机应用
|
2005年
/ 01期
关键词
:
文本分类;
N元语言模型;
参数平滑;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
分类是近年来自然语言处理领域的一个研究热点。在分析了传统的分类模型后,文中提出了用N元语言模型作为中文文本分类模型。该模型不以传统的"词袋"(bagofwords)方法表示文档,而将文档视为词的随机观察序列。根据该方法,设计并实现一个基于词的2元语言模型分类器。通过N元语言模型与传统分类模型(向量空间模型和NaiveBayes模型)的实验对比,结果表明:N元模型分类器具有更好的分类性能。
引用
收藏
页码:11 / 13+16 +16
页数:4
相关论文
共 14 条
[1]
一种限定性的双层贝叶斯分类模型
[J].
石洪波
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
石洪波
;
论文数:
引用数:
h-index:
机构:
王志海
;
黄厚宽
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
黄厚宽
;
励晓健
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
励晓健
.
软件学报,
2004,
(02)
:193
-199
[2]
统计机器翻译综述
[J].
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
刘群
.
中文信息学报,
2003,
(04)
:1
-12
[3]
基于统计分词的中文网页分类
[J].
黄科
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室
黄科
;
马少平
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室
马少平
.
中文信息学报,
2002,
(06)
:25
-31
[4]
基于支持向量机的中文文本自动分类研究
[J].
都云琪
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学计算机学院
都云琪
;
论文数:
引用数:
h-index:
机构:
肖诗斌
.
计算机工程,
2002,
(11)
:137
-138+289
[5]
一种基于N-Gram技术的中文文献自动分类方法
[J].
论文数:
引用数:
h-index:
机构:
何浩
;
论文数:
引用数:
h-index:
机构:
杨海棠
.
情报学报,
2002,
(04)
:421
-427
[6]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[7]
一种基于NA假设的训练数据自动构造方法
[J].
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院!沈阳
朱靖波
;
论文数:
引用数:
h-index:
机构:
张玫杰
;
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院!沈阳
姚天顺
.
东北大学学报,
1999,
(04)
:366
-368
[8]
汉语统计语言模型的N值分析
[J].
张树武
论文数:
0
引用数:
0
h-index:
0
机构:
中科院自动化所模式识别实验室
张树武
;
论文数:
引用数:
h-index:
机构:
黄泰翼
.
中文信息学报,
1998,
(01)
:36
-42
[9]
基于语料库和面向统计学的自然语言处理技术
[J].
周强
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所北京
周强
.
计算机科学,
1995,
(04)
:36
-40
[10]
自然语言理解[M]. 清华大学出版社 , 姚天顺等编著, 2002
←
1
2
→
共 14 条
[1]
一种限定性的双层贝叶斯分类模型
[J].
石洪波
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
石洪波
;
论文数:
引用数:
h-index:
机构:
王志海
;
黄厚宽
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
黄厚宽
;
励晓健
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
励晓健
.
软件学报,
2004,
(02)
:193
-199
[2]
统计机器翻译综述
[J].
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
刘群
.
中文信息学报,
2003,
(04)
:1
-12
[3]
基于统计分词的中文网页分类
[J].
黄科
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室
黄科
;
马少平
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室
马少平
.
中文信息学报,
2002,
(06)
:25
-31
[4]
基于支持向量机的中文文本自动分类研究
[J].
都云琪
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学计算机学院
都云琪
;
论文数:
引用数:
h-index:
机构:
肖诗斌
.
计算机工程,
2002,
(11)
:137
-138+289
[5]
一种基于N-Gram技术的中文文献自动分类方法
[J].
论文数:
引用数:
h-index:
机构:
何浩
;
论文数:
引用数:
h-index:
机构:
杨海棠
.
情报学报,
2002,
(04)
:421
-427
[6]
基于向量空间模型的文本自动分类系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
庞剑锋
;
论文数:
引用数:
h-index:
机构:
卜东波
;
白硕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所!北京
白硕
.
计算机应用研究,
2001,
(09)
:23
-26
[7]
一种基于NA假设的训练数据自动构造方法
[J].
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院!沈阳
朱靖波
;
论文数:
引用数:
h-index:
机构:
张玫杰
;
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院!沈阳
姚天顺
.
东北大学学报,
1999,
(04)
:366
-368
[8]
汉语统计语言模型的N值分析
[J].
张树武
论文数:
0
引用数:
0
h-index:
0
机构:
中科院自动化所模式识别实验室
张树武
;
论文数:
引用数:
h-index:
机构:
黄泰翼
.
中文信息学报,
1998,
(01)
:36
-42
[9]
基于语料库和面向统计学的自然语言处理技术
[J].
周强
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所北京
周强
.
计算机科学,
1995,
(04)
:36
-40
[10]
自然语言理解[M]. 清华大学出版社 , 姚天顺等编著, 2002
←
1
2
→