网络的兴起和蓬勃发展极大改变着人们的生活方式。电子邮件、BBS论坛、聊天室、即时消息和短信,取代了传统的书信和电话等通讯方式,成为人们沟通交流的主要手段。借助于这些新型的通讯方式,人们可以快速、甚至是随时随地分享和交换信息。这种交互过程中所产生的消息文本在Internet信息流中占据越来越重要的地位。消息文本在传递公开信息的同时携带了丰富的用户信息,从而成为一种新的具有极大价值的信息资源。本文着眼于话题识别等应用,借助于聚类分析进行基于内容的消息文本挖掘。
消息文本与纯文本、静态网页等传统文本的显著不同在于它的动态和不规范性。网络非正规语言的出现使得消息文本特征的提取非常困难。我们通过发现文本中频繁出现的词或短语(称之为频繁模式)来识别消息文本的特征。本文总结了文本中频繁模式发现算法,给出具体实现并对其性能进行评测。实验结果表明我们的实现方案性能可以满足实际应用的需要。
相比于词,结构稳定、表意完整,具有一定流通度的频繁模式(称之为关键频繁模式)包含了词序和邻近上下文等更多的语义信息,更能准确表达出特定的语义,更适合于作为文本特征。本文提出一种基于频繁模式的特征提取算法,可以自动从文本中提取出有意义的词或短语作为文本特征,极大的减少了特征数目。该算法独立于语种,对于中文无需分词。在此基础上,我们提出了一种无指导的基于频繁模式的特征选择算法,可以应用于文本分类和聚类中。实验结果表明,该特征选择算法在分类上的性能接近甚至超过两种典型的有指导的特征选择算法IG和CHI,在聚类也表现出良好的降维效果。
基于频繁模式的聚类算法具有降低特征维度、提高聚类质量并且产生易理解的类标签等优点。本文在消息文本语料对频繁模式特征的效果进行验证,实验结果表明,基于频繁模式的聚类算法能有效提高消息文本聚类的质量,同时显著降低特征空间的维度。此外,频繁模式还有助于聚类结果的解释。