本文在研究了文本倾向性分析技术发展现状的基础上,创新性地提出了一种基于共现链的微博倾向性分析算法。首先利用微博数据富含链接信息的优势,将文档解析成文档链。然后利用文本表示模型对文档链进行模型表示,根据预先设定的共现度阈值采用聚类方法抽取出同一主题的不同刻面,并对每个刻面采用基于语义的改进SBV极性算法分析其倾向性。根据微博本身特殊性,本文提出了两个启发式思想。一是话题模型只采用名词和动词表示,忽略形容词和副词;二是仅长文本具有生成新的话题刻面的资格,短文本只参与话题聚类而不能产生新类。本文旨在研究针对微博的倾向性分析中的话题评价对象抽取算法,主要研究内容如下:
(1)面向微博的大规模分布式爬虫技术。针对微博特殊性,设计并实现大规模分布式爬虫,快速高效采集和获取特定话题语料。
(2)基于网页的元数据解析技术。通过制定高效可扩展专用模板,对HTML进行元数据抽取,并根据微博数据中回复的明显标志,显示形成文档链。
(3)基于共现链的微博倾向性分析技术。结合TDT(Topic detection and tracking)话题发现与追踪中的向量空间模型和余弦相似度,将文档链模型化。设定共现度阈值,完成话题刻面的抽取。基于语句级情感分析算法,分析倾向性。
(4)设计并实现针对新浪微博的倾向性分析原型系统。通过新浪微博提供的API和大规模分布式爬虫技术,基于启发式共现链算法,有效发现倾向性分析评价对象即话题刻面,并进一步进行情感分析。