中文语义倾向识别的关键算法研究

被引：0

作者：

张锦明

机构：

[1] 北京邮电大学

关键词：

自然语言处理; 语义倾向识别; 向量空间模型;

D O I：

暂无

年度学位：

2008

学位类型：

硕士

导师：

钟义信;

摘要：

中文语义倾向识别是指识别某一特定主题的中文文本所具有的主观态度倾向性,判定文本对于该特定主题是持有肯定态度或是否定态度,它属于中文自然语言处理的范畴,是基于全信息的自然语言理解的重要研究领域。本文基于词汇本身的语义倾向信息,提出了一种基于词汇的语义倾向向量空间模型表示算法(SOVR算法)。该算法综合利用文本的语法、语义、语用三个层次;结合了基于统计和规则的方法;在一定程度上融合了一般领域与特定领域的信息。该算法可以用于传统机器学习算法的预处理模块,产生对文本进行全信息向量空间模型表示的输入。实验表明,与多种基于向量空间模型的机器学习方法和非向量空间模型的统计测度方法相比,该算法更加能够对文本的语义乃至语用层次的信息加以表达,能很好地处理网络中噪声较大的文本,具有良好的鲁棒性,在处理不同领域、文本差异较大的语料时也能够保持相对较好的性能,在结合C4.5决策树算法和SVM算法时分别达到90.79%和92.21%的性能。本课题为中文文本的语义倾向识别提供了一个新的行之有效的方法。

引用

页数：73

共 13 条

[1]

信息科学原理.[M].钟义信著;.北京邮电大学出版社.2002,

[2]

Methods For Meaningful Text Representation And Comparison..Ann Devitt;.University of Dublin.2005,

[3]

Measuring praise and criticism.[J].Peter D. Turney;Michael L. Littman.ACM Transactions on Information Systems (TOIS).2003, 4

[4]

A tutorial on Support Vector Machines for pattern recognition [J].