文本聚类中文本表示和相似度计算研究综述

被引:22
作者
吴夙慧 [1 ]
成颖 [1 ]
郑彦宁 [2 ]
潘云涛 [2 ]
机构
[1] 南京大学信息管理系
[2] 中国科学技术信息研究所
关键词
文本聚类; 文本表示; 相似度计算;
D O I
10.13833/j.cnki.is.2012.04.012
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。
引用
收藏
页码:622 / 627
页数:6
相关论文
共 14 条