面对网络上日益丰富的情感信息资源,如何能快速有效的获取并使用其中的有效信息成为人们关注的问题。本论文以影评信息领域的客户情感挖掘为例,通过使用一种以语义倾向分析为基础的信息挖掘技术来挖掘影评中用户透露的情感信息,藉此探讨语义倾向分析方法在面向互联网中文信息的客户情感分析中的作用。
本文首先系统地介绍了文本分类的相关知识。通过对文本分类的基本概念、原理及相关技术的介绍,总结了文本分类领域的研究现状,为下一步方法的提出奠定基础。
随后论文对语义分析的来源及原理作了简要地总结,从中英文语言差异的角度出发,针对语义倾向方法在英文应用中暴露的问题,提出了改进,进而提出应用于中文的改进算法。
最后的实验阶段论文运用影评测试文档对改进后的文档进行实测以验证改进后算法的正确性。为了验证改进后算法每个步骤的必要性,论文针对不同的步骤组合也进行了相关的实验。同时更加清晰地展现改进后算法的性能,验证改进的正确性,本文运用近年来广泛使用支持向量机技术进行性能的比较,并采用手机测试文档进一步测试比较两者的性能。
本文在改进算法的同时,收集整理了相关的影评数据集和手机数据集,形成了一个可以共享的语料库。同时根据改进后的算法,设计编写了一个情感信息分类系统,解决了中文情感信息的自动分类问题。
语义倾向方法与训练型的文本分类算法相比,由于具有不需要大量样本训练、领域知识依赖弱的特点,相信在未来必能得到广泛的发展。