文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方法并不能很好用于处理短文本。
本文首先总结了国内外针对短文本分类技术的研究现状,现有的短文本分类方法大多需要背景知识库的支持,但是这些分类方法的普适性不是很强,而且处理背景知识库需要耗费大量的精力。常见的短文本主要有论坛发帖、产品评论、手机短信以及微博等等。与传统长文本相比较,短文本具有自己鲜明的特点,比如长度很短、用词不规范、新词不断出现等等。对短文本进行分类研究具有重要现实意义,与长文本相比较,短文本具有自己的突出特点,本文提出了基于搜索引擎和LDA主题模型的短文本分类方法。
然后,本文讨论了传统文本分类过程中重要的技术方法。包括文本的预处理,文本向量化表示,特征提取方法,常用分类方法等。同时指出这些方法需要改进的地方以便用于短文本的分类处理。
接着,文章介绍了LDA主题模型。并在主题模型的基础上结合搜索引擎,对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效表示短文本,提高短文本分类的效果。
相信随着短文本分类技术不断的发展完善,短文本分类对于政府决策、网络信息监管、舆情引导等社会工作会起到广泛而深刻的意义。