使用本体语义提高文本聚类(英文)

被引:9
作者
罗娜 [1 ]
左万利 [1 ]
袁福宇 [1 ]
张靖波 [2 ]
张慧杰 [2 ]
机构
[1] 吉林大学计算机科学与技术学院
[2] 不详
关键词
本体; 文本聚类; 词典; WordNet;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高.
引用
收藏
页码:370 / 374
页数:5
相关论文
共 2 条
  • [1] Methods and techniques of adaptive hypermedia[J] . Peter Brusilovsky.User Modeling and User-Adapted Interaction . 1996 (2)
  • [2] Cross-language information retrieval using ontology[A .2 Abdelali Ahmed,Cowie James,Farwell David,et al. Proc of Traitment Automatique des Languages Naturelles[C . 2003