BBS热点话题挖掘与观点分析

被引:0
作者
姚晓娜
机构
[1] 大连海事大学
关键词
热点话题挖掘; 观点分析; Web文本挖掘; 文本聚类; 依存句法分析;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
随着互联网的飞速发展,BBS(即网络论坛)已经成为人们自由发表言论,表达民意的重要平台。政府和网管部门需要利用有效的智能技术,对BBS进行舆情监控,以便及时掌握各个时期民众关心的热点话题,并了解民众对这些热点话题的观点和态度,从而做出正确、科学的决策。 本文的主要研究内容如下: (1) BBS信息的自动抽取:为了实现对BBS网页的自动采集和信息抽取,本文采用HTML Parser包和正则表达式对HTML类型的BBS网页进行解析,从中抽取BBS帖子线索的各项信息,并将抽取结果存入XML文件中。 (2)面向BBS文本的特征选择及权重计算:BBS文本的语言和结构与传统的文本有所不同,有着自己的特点。本文选取词条的出现次数、出现位置、词长以及包含该词条的帖子数目等四个因子来评估特征项,并用综合评估函数代替了TF-IDF公式中的TF项,来计算特征项在向量空间模型中的权重。 (3) BBS热点话题挖掘:话题识别是热点话题挖掘的一个关键步骤,本文分别采用Single-Pass、K-Means以及K-Medoids聚类算法进行话题识别,在实际应用时根据原算法存在的缺陷做了相应改进,并给出实验结果及其分析。在话题识别的基础上,综合话题的线索数、精华线索数、回复数、单位时间浏览数等信息,对话题进行热度评分。 (4) BBS帖子线索的观点分析:本文将帖子线索的特征项作为观点的评价对象,结合极性词词典和依存句法分析技术,采用了SBV(主谓关系)极性传递算法对BBS中的观点句进行观点分析。针对主谓关系和动宾关系之间存在连动关系的观点句,对SBV极性传递算法做了补充。在句子观点分析的基础上,对整个BBS帖子线索进行观点分析。最后,通过实验验证了观点分析算法的有效性。
引用
收藏
页数:86
共 35 条
[1]
文本信息处理的若干关键技术研究 [D]. 
熊云波 .
复旦大学,
2006
[2]
基于语义资源的文本情感计算 [D]. 
徐琳宏 .
大连理工大学,
2007
[3]
基于XML的Web信息抽取技术的应用研究 [D]. 
陈佳 .
武汉理工大学,
2007
[4]
基于NLP技术的中文网络评论观点抽取方法的研究 [D]. 
娄德成 .
上海交通大学,
2007
[5]
基于语义相似度的文本聚类算法的研究 [D]. 
孙爽 .
南京航空航天大学,
2007
[6]
基于频繁模式的消息文本聚类研究 [D]. 
胡吉祥 .
中国科学院研究生院(计算技术研究所),
2006
[7]
大规模Web论坛采集技术研究 [D]. 
李魁 .
中国科学院研究生院(计算技术研究所),
2006
[8]
WEB文本挖掘的聚类分析 [D]. 
张兆中 .
山东科技大学,
2005
[9]
Web文本挖掘的研究 [D]. 
王娜 .
兰州理工大学,
2005
[10]
WEB信息的抽取与集成 [D]. 
薛惠忠 .
东南大学,
2004