一种基于本体的抽象度可调文档聚类

被引:3
作者
王晓东
郭雷
方俊
杨宁
邓涛
机构
[1] 西北工业大学自动化学院
关键词
本体; 文档聚类; 概念; 消歧; 抽象度;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
文档聚类随着网上文本数量的激增以及实际应用中的需求,引起了人们广泛的关注。针对目前文档聚类的主要缺陷,提出了一种新的基于本体的抽象度可调文档聚类(Adjustable Text Clustering using Abstract Degreeof Concept,ATCADC)。该方法采用Wordnet对VSM特征词进行概念映射和消歧处理,利用生成的特征概念实现文档语义层面上的矢量描述,并在二次特征选择的基础上,完成合成聚类(AHC)。方法能够依据用户设定的概念抽象度,借助专门设计的语义中心矢量调节聚类,还可利用关键特征概念对聚类簇进行解释。实验结果证明,聚类精度高,聚类簇可解释,调节效果有效,能够满足用户不同概念抽象度层次上的聚类。
引用
收藏
页码:172 / 175
页数:4
相关论文
共 3 条
[1]   文档聚类综述 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
关毅 .
中文信息学报, 2006, (03) :55-62
[2]   自然语言处理中词语上下文有效范围的定量描述 [J].
鲁松 ;
白硕 .
计算机学报, 2001, (07) :742-747
[3]  
THESUS: Organizing Web document collections based on link semantics[J] . Maria Halkidi,Benjamin Nguyen,Iraklis Varlamis,Michalis Vazirgiannis.The VLDB Journal . 2003 (4)