结合语义与统计的特征降维短文本聚类

被引:15
作者
杨婉霞 [1 ,2 ]
孙理和 [3 ]
黄永峰 [2 ]
机构
[1] 甘肃农业大学工学院
[2] 清华大学电子工程系
[3] 西北师范大学外国语学院
关键词
特征选择; 聚类; 短文本; 向量空间模型; 语义; 降维;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为解决文本聚类时文本的高维稀疏性问题,提出一种语义和统计特征相结合的短文本聚类算法。该算法通过语义词典对词汇的语义相关性分析实现一次降维,结合统计方法进行特征选择实现二次降维,并融合二次降维特征实现短文本聚类。实验结果表明,该算法具有较好的短文本聚类效果和效率。
引用
收藏
页码:171 / 175
页数:5
相关论文
共 7 条
[1]
文本分类中特征选择技术的研究 [D]. 
王博 .
国防科学技术大学,
2009
[2]
SVM based adaptive learning method for text classification from positive and unlabeled documents [J].
Peng, Tao ;
Zuo, Wanli ;
He, Fengling .
KNOWLEDGE AND INFORMATION SYSTEMS, 2008, 16 (03) :281-301
[3]
基于同义词词林的文本特征选择与加权研究 [J].
吕震宇 ;
林永民 ;
赵爽 ;
朱卫东 .
情报杂志, 2008, (05) :130-132
[4]
基于特征选择的轻量级入侵检测系统 [J].
陈友 ;
程学旗 ;
李洋 ;
戴磊 .
软件学报, 2007, (07) :1639-1651
[5]
一种基于语义和统计特征的中文文本特征表示方法 [J].
赵鹏 ;
耿焕同 ;
蔡庆生 .
小型微型计算机系统, 2007, (07) :1311-1313
[6]
基于领域词典的文本特征表示 [J].
陈文亮 ;
朱靖波 ;
朱慕华 ;
姚天顺 .
计算机研究与发展, 2005, (12) :2155-2160
[7]
最优特征子集选择问题 [J].
陈彬 ;
洪家荣 ;
王亚东 .
计算机学报, 1997, (02)