融合语义资源和关键词的文本聚类

被引:7
作者
吴舜尧 [1 ,2 ]
邵峰晶 [1 ,2 ]
王金龙 [3 ]
孙仁诚 [2 ]
王营 [2 ]
机构
[1] 青岛大学自动化工程学院
[2] 青岛大学信息工程学院
[3] 青岛理工大学计算机工程学院
关键词
关键词; 文本聚类; Wikipedia语义; 簇中心初始化; 网络推断; 重要文档;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
融合关键词形式的属性层知识可有效提高文本聚类的聚类质量,但融合关键词的簇中心初始化仍是一个开放性问题。为此,提出一种融合语义资源和关键词的文本聚类方法。通过Wikipedia语义识别文本集的主题,采用基于资源分配的网络推断策略,通过文献协同关系发现潜在语义相关性,以选择最能代表各主题的重要文档(初始簇中心),并利用软约束与测度学习相结合的策略融合关键词辅助文本聚类。在20Newsgourp文本集上的实验结果表明,与k-means和仅融合关键词的文本聚类方法相比,该方法可有效提升聚类质量,尤其在NewsDifferent3数据集上标准互信息最多可提升约20%。
引用
收藏
页码:223 / 227
页数:5
相关论文
共 2 条
[1]   基于向量空间模型的文本聚类算法 [J].
姚清耘 ;
刘功申 ;
李翔 .
计算机工程, 2008, (18) :39-41+44
[2]   一种基于语义内积空间模型的文本聚类算法 [J].
彭京 ;
杨冬青 ;
唐世渭 ;
付艳 ;
蒋汉奎 .
计算机学报, 2007, (08) :1354-1363