基于共现链的微博情感分析技术的研究与实现

被引:0
作者
王岩
机构
[1] 国防科学技术大学
关键词
网络舆情; 微博; 共现链; 倾向性分析; 意见挖掘;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
本文在研究了文本倾向性分析技术发展现状的基础上,创新性地提出了一种基于共现链的微博倾向性分析算法。首先利用微博数据富含链接信息的优势,将文档解析成文档链。然后利用文本表示模型对文档链进行模型表示,根据预先设定的共现度阈值采用聚类方法抽取出同一主题的不同刻面,并对每个刻面采用基于语义的改进SBV极性算法分析其倾向性。根据微博本身特殊性,本文提出了两个启发式思想。一是话题模型只采用名词和动词表示,忽略形容词和副词;二是仅长文本具有生成新的话题刻面的资格,短文本只参与话题聚类而不能产生新类。本文旨在研究针对微博的倾向性分析中的话题评价对象抽取算法,主要研究内容如下: (1)面向微博的大规模分布式爬虫技术。针对微博特殊性,设计并实现大规模分布式爬虫,快速高效采集和获取特定话题语料。 (2)基于网页的元数据解析技术。通过制定高效可扩展专用模板,对HTML进行元数据抽取,并根据微博数据中回复的明显标志,显示形成文档链。 (3)基于共现链的微博倾向性分析技术。结合TDT(Topic detection and tracking)话题发现与追踪中的向量空间模型和余弦相似度,将文档链模型化。设定共现度阈值,完成话题刻面的抽取。基于语句级情感分析算法,分析倾向性。 (4)设计并实现针对新浪微博的倾向性分析原型系统。通过新浪微博提供的API和大规模分布式爬虫技术,基于启发式共现链算法,有效发现倾向性分析评价对象即话题刻面,并进一步进行情感分析。
引用
收藏
页数:58
共 14 条
[1]
基于语义倾向性的文本过滤研究 [J].
程显毅 ;
杨天明 ;
朱倩 ;
蔡月红 .
计算机应用研究, 2009, 26 (12) :4460-4462
[2]
节点频度和语义距离相结合的网页正文信息抽取 [J].
孟军 ;
刘秋水 ;
王秀坤 .
计算机工程与应用, 2009, 45 (01) :140-143
[3]
面向网络舆情分析的实用关键技术概述 [J].
戴媛 ;
程学旗 .
信息网络安全, 2008, (06) :62-65
[4]
针对模板生成网页的一种数据自动抽取方法(英文) [J].
杨少华 ;
林海略 ;
韩燕波 .
软件学报, 2008, (02) :209-223
[5]
情感语料库的构建和分析 [J].
徐琳宏 ;
林鸿飞 ;
赵晶 .
中文信息学报, 2008, (01) :116-122
[6]
基于标记窗的网页正文信息提取方法 [J].
赵欣欣 ;
索红光 ;
刘玉树 .
计算机应用研究, 2007, (03) :144-145+180
[7]
基于HowNet的词汇语义倾向计算 [J].
朱嫣岚 ;
闵锦 ;
周雅倩 ;
黄萱菁 ;
吴立德 .
中文信息学报, 2006, (01) :14-20
[8]
基于分块的网页信息解析器的研究与设计 [J].
于满泉 ;
陈铁睿 ;
许洪波 .
计算机应用, 2005, (04) :974-976
[9]
基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[10]
基于语义的BLOG社区文本倾向性分析 [D]. 
肖伟 .
上海交通大学,
2007