基于语义的BLOG社区文本倾向性分析

被引:0
作者
肖伟
机构
[1] 上海交通大学
关键词
博客; 语义; 文本倾向性分析; 句群;
D O I
暂无
年度学位
2007
学位类型
硕士
摘要
在上世纪90年代末兴起,并于2002年引入到中国互联网的BLOG( Web log,网志,俗称“博客”)在短短几年时间内已经发展成万维网上最具活力的、发展最迅猛的虚拟社区。博客空间(blogspace)作为一个有着成千上万用户在其上进行个人观点等信息交换的平台,蕴藏着巨大的商业价值。例如,针对商品调查这个特定领域,我们知道最重要的就是要得到实际客户对某商品的评价。这些评价信息不仅对商家极其重要,而且对潜在客户也有很好的参考价值。分析这些收集来的BLOG帖子(post)的关键技术是文本倾向性分析,它在在商业产品评论分析、网络舆情分析及垃圾邮件过滤等领域均有着广泛的应用前景。 目前两类主流的文本倾向性分析方法(即基于语义的文本倾向性分析方法和基于机器学习的文本倾向性分析方法)都是将文档仅仅看作是词或模式的集合,没有将这些词或模式按照语境或意群划分。这样,就导致了在对论证时引述对方观点的文档进行文本倾向性分析时会将引述部分作为作者的观点的问题,而被引述部分的观点恰恰是与作者的倾向性相反的观点。 本文设计并实现了一种基于浅层语义分析的文本倾向性识别方法。该方法在对待分析文档中的每个句子进行倾向性分析的过程中引入转折复句的识别,从而修正整个句子的倾向性值。在完成对句子分析的基础上,再对潜在的转折句群进行预测,进而对整个句群的倾向性值作出相应调整。以提高对整个评论文本的倾向性分析的正确性。通过真实语料测试之后,该方法表现出了较好的召回率和准确率。
引用
收藏
页数:56
共 16 条
[1]
文档数据库若干关键技术研究 [D]. 
刘永丹 .
复旦大学,
2004
[2]
三种文档语义倾向性识别方法的分析与比较 [J].
马海兵 ;
刘永丹 ;
王兰成 ;
李荣陆 .
现代图书情报技术, 2007, (04) :43-47
[3]
自然语言处理中句群划分及其判定规则研究 [J].
吴晨 ;
张全 .
计算机工程, 2007, (04) :157-159
[4]
基于语义理解的文本倾向性识别机制 [J].
徐琳宏 ;
林鸿飞 ;
杨志豪 .
中文信息学报, 2007, (01) :96-100
[5]
博客营销的应用分析 [J].
周旭 .
广东经济管理学院学报, 2006, (05) :69-72
[6]
Web文本褒贬倾向性分类研究 [J].
柴玉梅 ;
熊德兰 ;
昝红英 .
计算机工程, 2006, (17) :89-91
[7]
用数据解读博客群体——CTR 2006年博客调查 [J].
祁炜 ;
王开宇 .
市场研究, 2006, (06) :10-12
[8]
基于HowNet的词汇语义倾向计算 [J].
朱嫣岚 ;
闵锦 ;
周雅倩 ;
黄萱菁 ;
吴立德 .
中文信息学报, 2006, (01) :14-20
[9]
基于语义分析的倾向性文本过滤 [J].
刘永丹 ;
曾海泉 ;
李荣陆 ;
胡运发 .
通信学报, 2004, (07) :78-85
[10]
自然语言处理中词语上下文有效范围的定量描述 [J].
鲁松 ;
白硕 .
计算机学报, 2001, (07) :742-747