基于本体及相似度的文本聚类研究

被引:9
作者
王刚 [1 ,2 ]
邱玉辉 [2 ]
机构
[1] 安康学院电子与信息工程系
[2] 西南大学语义网格实验室
关键词
本体; 相似度; 文本聚类; 语义;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径。
引用
收藏
页码:2494 / 2497
页数:4
相关论文
共 4 条
[1]  
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[2]   一个基于语义元的相似度计算方法研究 [J].
王刚 ;
邱玉辉 ;
蒲国林 .
计算机应用研究, 2008, (11) :3253-3255+3261
[3]   一种基于语义相似度的文本聚类算法 [J].
孙爽 ;
章勇 .
南京航空航天大学学报, 2006, (06) :712-716
[4]   文本挖掘技术研究 [J].
薛为民 ;
陆玉昌 .
北京联合大学学报(自然科学版), 2005, (04) :59-63