共 2 条
融合语义资源和关键词的文本聚类
被引:7
作者:
吴舜尧
[1
,2
]
邵峰晶
[1
,2
]
王金龙
[3
]
孙仁诚
[2
]
王营
[2
]
机构:
[1] 青岛大学自动化工程学院
[2] 青岛大学信息工程学院
[3] 青岛理工大学计算机工程学院
来源:
关键词:
关键词;
文本聚类;
Wikipedia语义;
簇中心初始化;
网络推断;
重要文档;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
融合关键词形式的属性层知识可有效提高文本聚类的聚类质量,但融合关键词的簇中心初始化仍是一个开放性问题。为此,提出一种融合语义资源和关键词的文本聚类方法。通过Wikipedia语义识别文本集的主题,采用基于资源分配的网络推断策略,通过文献协同关系发现潜在语义相关性,以选择最能代表各主题的重要文档(初始簇中心),并利用软约束与测度学习相结合的策略融合关键词辅助文本聚类。在20Newsgourp文本集上的实验结果表明,与k-means和仅融合关键词的文本聚类方法相比,该方法可有效提升聚类质量,尤其在NewsDifferent3数据集上标准互信息最多可提升约20%。
引用
收藏
页码:223 / 227
页数:5
相关论文