互联网舆情信息管控关键技术研究与实现

被引:0
作者
李若鹏
机构
[1] 上海交通大学
关键词
舆情信息管控; 文本聚类; DK; CTCM;
D O I
暂无
年度学位
2008
学位类型
硕士
摘要
本文针对互联网信息内容新、变化快和新类别层出不穷的特点,对舆情信息管控领域的几个关键技术做了较为深入的研究,设计了中文文本聚类模型CTCM。 本文首先对中文分词技术、文本特征选取、汉语语言构成及分词词表进行分析,提出并实现了基于正向最大匹配的新词发现,该算法可及时发现任意长度的热点词汇,可实现动态调整词表。 其次,通过对各种聚类算法的分析、比较与实验,针对互联网舆情信息管控领域的特点,本文创新性的提出了基于密度与CFK-Means相结合的聚类算法—DK算法,既极大地降低了计算复杂度和计算时间,又克服了单纯采用K-Means算法依赖初始聚类数和初始聚类中心点的缺陷。大量的实验数据显示,DK算法显著提高了聚类速度和准确率。 最后,本文将文本聚类的思想引入类描述信息的自动生成,将每个段落看成是一个篇幅较小的文本,计算类与文本的相似程度,找出与类相似程度最高的段和语句,从而确定类的描述信息。 通过测试,证明本文设计实现的中文文本聚类系统实现了对于互联网舆情信息热点的及时发现、及时分类,有效的改善了网络管控的效果。
引用
收藏
页数:67
共 21 条
[1]
面向信息检索的自适应中文分词系统 [J].
曹勇刚 ;
曹羽中 ;
金茂忠 ;
刘超 .
软件学报, 2006, (03) :356-363
[2]
面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[3]
数据聚类技术的研究 [J].
张蓉 .
计算机工程与应用 , 2002, (16) :145-147
[5]
基于构词法的网络新词自动识别初探 [J].
郑家恒 ;
李文花 .
山西大学学报(自然科学版), 2002, (02) :115-119
[6]
模糊聚类算法在汉语文本聚类中的应用 [J].
李家福 ;
陆建江 ;
张亚非 .
计算机工程, 2002, (04) :15-16+33
[7]
基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[8]
数据挖掘技术 [J].
俞金寿 .
石油化工自动化, 2000, (06) :38-42+0
[10]
自动文摘的四种主要方法 [J].
刘挺 ;
王开铸 .
情报学报, 1999, (01)