基于本体及相似度的文本聚类研究

被引：9

作者：

王刚 ^{[1
,2
]}

邱玉辉 ^{[2
]}

机构：

[1] 安康学院电子与信息工程系

[2] 西南大学语义网格实验室

来源：

计算机应用研究 | 2010年 / 27卷 / 07期

关键词：

本体; 相似度; 文本聚类; 语义;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径。

引用

页码：2494 / 2497

页数：4

共 4 条

[1]

数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,

[2] 一个基于语义元的相似度计算方法研究 [J].