随着因特网在全球范围内的飞速发展,网络逐渐发展成为反映社会舆情的主要载体。当前,对网络舆论的导向进行监测和预警已经显得愈发重要。文本倾向性分类是其中的研究热点之一。文本倾向性分类是指判断一篇文章对评价对象是否具有情感倾向以及所持有的情感倾向类别。文本倾向性分类在民意调查、舆情监控、市场分析、智能导购等方面均有应用价值。
本文在研究现有各种主题分类所用技术的基础上,首先构造了中文文本倾向性分类用语义资源,并以此为基础设计实现了结合语义资源及其上下文的文本形式化方法,然后使用LIBSVM作为分类算法的实现构建了完整的文本倾向性分类器,最后通过实验验证以上成果对文本倾向性分类的改进效果,并将这些技术集成到系统平台。本文旨在通过以上研究提升舆情分析中文本的倾向性分类性能。本文主要研究内容包括如下四个方面:
(1)对现有各种主题分类相关技术进行研究,分类列出了这些技术中对文本倾向性分类仍然适用的方式和方法,并总结了其中面临的主要技术瓶颈;通过列举文本倾向性分类处理对象的特点规律,总结了在构建倾向性分类器时需要着重考虑的问题和因素。
(2)针对目前倾向性语义资源匮乏的现状,收集和整理了当前主要的基础语义资源,分析了在构建语义资源时需要考虑的因素,提出了用于倾向性分类的语义资源的构建方法并实际构建了一部领域极性词典。
(3)完整构建了一个文本倾向性分类器,分类器包括了文本形式化表示和分类算法的实现两部分。为有效融入倾向性语义资源,对特征选择和特征项权重计算等文本形式化过程做了算法改进,并通过分类实验验证了分类性能的改善。
(4)以框架和应用组件的形式将UIMA与文本倾向性分类器进行了整合,为后续舆情分析系统的开发作积累和准备。