一种基于语义相似度的文本聚类算法

被引:18
作者
孙爽
章勇
机构
[1] 南京航空航天大学信息科学与技术学院
关键词
文本聚类; 语义相似度; 文本表示; 语义相似度的文本聚类算法;
D O I
10.16356/j.1005-2615.2006.06.012
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。
引用
收藏
页码:712 / 716
页数:5
相关论文
共 8 条
  • [1] D eve lopm en t and app li-cation of a m etric on sem an tic nets. R oy R,M iliH,B lettnerM. IEEE T rans-action on System,M an and Cybernetics . 1989
  • [2] Sem an tic s im ilarity based on corpusstatistics and lex ica l taxonom y. Jay J,D av id W. P roceed ing ofIn ternationa l Con ference R esearch on Com pu tationa lL ingu istics . 1997
  • [3] T ex t s im ilarity m ea-surem en t us ing concept represen tation of tex ts. Pandya A,Bhattacharyya P. P roceed ings of F irst In ternationa l Con ference on Pat-tern R ecogn ition and M ach ine In te lligence . 2005
  • [4] In troduc-tion to w ordnet:an on-line lex ica l database. M iller G,B eckw ith R,F e llbaum C,et a l. In t JL ex icography . 1990
  • [5] TCUAP:a nove l ap-proach of tex t clustering us ing asymm etric prox im ity. Song Shaoxu,L i Chunp ing. P roceed ings of the 2nd Ind ian In ternationa lCon ference on A rtific ia l In te lligence . 2005
  • [6] D ocum en t clustering w ithsem an tic ana lys is. W ang Y ong,Hodges J. P roceed ings of the 39thH aw a ii In ternationa l Con ference on System Sc iences . 1990
  • [7] W eb docum en t clustering:afeas ib ility dem onstration. Zam ir O,E tz ion i O. P roceed ing of A us-trilia ACM S IG IR on R esearch and D eve lopm en t inIn form ation R etrieva l . 1998
  • [8] In form ation theoretic defin ition of s im i-larity. L in D ekang. P roceed ings of 15th In ternationa l Con fer-ence on M ach ine L earn ing . 1998