结合新概念分解和频繁词集的短文本聚类

被引:4
作者
贾瑞玉
陈胜发
机构
[1] 安徽大学计算机科学与技术学院
关键词
文本聚类; 概念分解; 频繁词集; 文本表示;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统文本聚类忽略词与词之间的语义关系和数据高维的问题,提出了一种结合新概念分解和频繁词集的短文本聚类.该算法首先对短文本进行频繁词集的挖掘,接着使用挖掘的频繁词集来表示每个短文本,然后将每个文本进行向量表示.为了提高聚类的性能和解决概念分解的限制,提出了一种具有对偶连通约束的正则化概念分解算法,最后使用该算法进行短文本聚类.该算法不仅能对处理后的文本的维度起到很好的降低作用,还可以很好的关联短文本集中的文本,使文本之间的关系不再是独立的.在搜狐新闻和微博短文本数据集上的实验验证了该算法的有效性.
引用
收藏
页码:1321 / 1326
页数:6
相关论文
共 11 条
[1]   一种基于频繁词集表示的新文本聚类方法 [J].
张雪松 ;
贾彩燕 .
计算机研究与发展, 2018, (01) :102-112
[2]   基于TSCM模型的网络短文本情感挖掘 [J].
黄发良 ;
李超雄 ;
元昌安 ;
汪焱 ;
姚志强 .
电子学报, 2016, 44 (08) :1887-1891
[3]  
Graph-based discriminative concept factorization for data representation [J] . Huirong Li,Jiangshe Zhang,Junying Hu,Chunxia Zhang,Junmin Liu.&nbsp&nbspKnowledge-Based Systems . 2016
[4]  
A step forward for Topic Detection in Twitter: An FCA-based approach [J] . Juan Cigarrán,ángel Castellanos,Ana García-Serrano.&nbsp&nbspExpert Systems With Applications . 2016
[5]  
Semi-supervised cluster-and-label with feature based re-clustering to reduce noise in Thai document images [J] . N. Piroonsup,S. Sinthupinyo.&nbsp&nbspKnowledge-Based Systems . 2015
[6]  
Local regularization concept factorization and its semi-supervised extension for image representation [J] . Zhenqiu Shu,Chunxia Zhao,Pu Huang.&nbsp&nbspNeurocomputing . 2015
[7]  
TESC: An approach to TExt classification using Semi-supervised Clustering [J] . Wen Zhang,Xijin Tang,Taketoshi Yoshida.&nbsp&nbspKnowledge-Based Systems . 2014
[8]  
Low-rank matrix factorization with multiple Hypergraph regularizer [J] . Taisong Jin,Jun Yu,Jane You,Kun Zeng,Cuihua Li,Zhengtao Yu.&nbsp&nbspPattern Recognition . 2014
[9]  
Exhaustive and Efficient Constraint Propagation: A Graph-Based Learning Approach and Its Applications [J] . Zhiwu Lu,Yuxin Peng.&nbsp&nbspInternational Journal of Computer Vision . 2013 (3)
[10]   Text clustering using frequent itemsets [J].
Zhang, Wen ;
Yoshida, Taketoshi ;
Tang, Xijin ;
Wang, Qing .
KNOWLEDGE-BASED SYSTEMS, 2010, 23 (05) :379-388