基于语言建模的文本情感分类研究

被引:22
作者
胡熠
陆汝占
李学宁
段建勇
陈玉泉
机构
[1] 上海交通大学计算机科学与工程系
基金
国家自然科学基金重大项目;
关键词
情感分类; 语言建模; KL距离; 监督学习; 鲁棒性;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出了一种基于语言建模的文本情感分类的方法.将文本的情感倾向标记为"赞扬"或"批评",可以为文本提供主题之外的语义信息.为此提出了从训练数据中分别估计出代表"赞扬"和"批评"两种情感倾向的语言模型,然后通过比较测试文本自身的语言模型和这两种训练好的情感模型之间的Kull-back-Leibler距离,分类测试文本的思路.各个模型的参数分别选用词形特征的unigram和bigram,而相应的参数估计也分别尝试了最大似然和平滑两种策略.当在电影评论语料上和代表不同分类模型的支持向量机及朴素贝叶斯分类器进行比较时,语言建模的方法表现出了较好的分类性能和鲁棒性.
引用
收藏
页码:1469 / 1475
页数:7
相关论文
共 4 条
[1]   基于语义理解的文本倾向性识别机制 [J].
徐琳宏 ;
林鸿飞 ;
杨志豪 .
中文信息学报, 2007, (01) :96-100
[2]  
Measuring praise and criticism[J] . Peter D. Turney,Michael L. Littman.ACM Transactions on Information Systems (TOIS) . 2003 (4)
[3]   A tutorial on Support Vector Machines for pattern recognition [J].
Burges, CJC .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :121-167
[4]  
Improved backing-off for m-gramlanguage modeling .2 R Kneser,H Ney. The IEEE Int’l Conf on Acoustics,Speech and Signal Processing . 1995