中文短文本分类技术的研究与实现

被引:0
作者
熊大康
机构
[1] 安徽大学
关键词
文本挖掘; 短文本; 文本分类; 主题模型;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方法并不能很好用于处理短文本。 本文首先总结了国内外针对短文本分类技术的研究现状,现有的短文本分类方法大多需要背景知识库的支持,但是这些分类方法的普适性不是很强,而且处理背景知识库需要耗费大量的精力。常见的短文本主要有论坛发帖、产品评论、手机短信以及微博等等。与传统长文本相比较,短文本具有自己鲜明的特点,比如长度很短、用词不规范、新词不断出现等等。对短文本进行分类研究具有重要现实意义,与长文本相比较,短文本具有自己的突出特点,本文提出了基于搜索引擎和LDA主题模型的短文本分类方法。 然后,本文讨论了传统文本分类过程中重要的技术方法。包括文本的预处理,文本向量化表示,特征提取方法,常用分类方法等。同时指出这些方法需要改进的地方以便用于短文本的分类处理。 接着,文章介绍了LDA主题模型。并在主题模型的基础上结合搜索引擎,对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效表示短文本,提高短文本分类的效果。 相信随着短文本分类技术不断的发展完善,短文本分类对于政府决策、网络信息监管、舆情引导等社会工作会起到广泛而深刻的意义。
引用
收藏
页数:63
共 25 条
[1]
中文文本情感分类的研究 [D]. 
曾一平 .
北京交通大学,
2011
[2]
基于停用词处理的汉语语音检索方法 [D]. 
蒋斌 .
哈尔滨工业大学,
2008
[3]
基于布尔模型的网页查重算法研究 [D]. 
连浩 .
中国科学院研究生院(计算技术研究所),
2006
[4]
基于语境歧义词的句子情感倾向性分析 [J].
宋艳雪 ;
张绍武 ;
林鸿飞 .
中文信息学报, 2012, (03) :38-43+64
[5]
一种基于WordNet的短文本语义相似性算法 [J].
翟延冬 ;
王康平 ;
张东娜 ;
黄岚 ;
周春光 .
电子学报, 2012, 40 (03) :617-620
[6]
文本分类中改进型CHI特征选择方法的研究 [J].
裴英博 ;
刘晓霞 .
计算机工程与应用, 2011, 47 (04) :128-130+194
[7]
基于文档频率的特征选择方法 [J].
杨凯峰 ;
张毅坤 ;
李燕 .
计算机工程, 2010, 36 (17) :33-35+38
[8]
中文文本分类中利用依存关系的实验研究 [J].
王鹏 ;
樊兴华 .
计算机工程与应用, 2010, (03) :131-133+141
[9]
基于KL距离的非平衡数据半监督学习算法 [J].
许震 ;
沙朝锋 ;
王晓玲 ;
周傲英 .
计算机研究与发展, 2010, 47 (01) :81-87
[10]
中文文本分类中的文本表示因素比较 [J].
张爱华 ;
荆继武 ;
向继 .
中国科学院研究生院学报, 2009, 26 (03) :400-407