随着互联网的飞速发展,BBS(即网络论坛)已经成为人们自由发表言论,表达民意的重要平台。政府和网管部门需要利用有效的智能技术,对BBS进行舆情监控,以便及时掌握各个时期民众关心的热点话题,并了解民众对这些热点话题的观点和态度,从而做出正确、科学的决策。
本文的主要研究内容如下:
(1) BBS信息的自动抽取:为了实现对BBS网页的自动采集和信息抽取,本文采用HTML Parser包和正则表达式对HTML类型的BBS网页进行解析,从中抽取BBS帖子线索的各项信息,并将抽取结果存入XML文件中。
(2)面向BBS文本的特征选择及权重计算:BBS文本的语言和结构与传统的文本有所不同,有着自己的特点。本文选取词条的出现次数、出现位置、词长以及包含该词条的帖子数目等四个因子来评估特征项,并用综合评估函数代替了TF-IDF公式中的TF项,来计算特征项在向量空间模型中的权重。
(3) BBS热点话题挖掘:话题识别是热点话题挖掘的一个关键步骤,本文分别采用Single-Pass、K-Means以及K-Medoids聚类算法进行话题识别,在实际应用时根据原算法存在的缺陷做了相应改进,并给出实验结果及其分析。在话题识别的基础上,综合话题的线索数、精华线索数、回复数、单位时间浏览数等信息,对话题进行热度评分。
(4) BBS帖子线索的观点分析:本文将帖子线索的特征项作为观点的评价对象,结合极性词词典和依存句法分析技术,采用了SBV(主谓关系)极性传递算法对BBS中的观点句进行观点分析。针对主谓关系和动宾关系之间存在连动关系的观点句,对SBV极性传递算法做了补充。在句子观点分析的基础上,对整个BBS帖子线索进行观点分析。最后,通过实验验证了观点分析算法的有效性。