CNN支持下的领域文本自组织映射神经网络聚类算法

被引:10
作者
贾声声
彭敦陆
机构
[1] 上海理工大学光电信息与计算机工程学院
基金
上海市自然科学基金;
关键词
文本特征; 动态词窗口; CNN; 层次聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
文本中蕴含的信息具有重要的应用价值.如何将文本进行聚类挖掘有价值的信息成为自然语言研究领域当前的热点.针对文本信息的层次聚类问题,提出基于动态词窗口的卷积神经网络(Convolutional Neural Network,CNN)文本特征提取算法和基于森林结构的自组织映射神经网络聚类算法(Forest Growing Self-Organizing Maps,FGSOM).首先,结合领域词性模板和特征模式对CNN特征提取算法进行改进,实现文本特征向量的自动提取.然后,将文本特征向量作为FGSOM算法的输入层,结合生长阈值和局部最优策略,实现文本分层聚类.通过将所提算法应用于法律案件文本聚类,通过与现有同类算法进行比较表明,所提算法具有较好计算效果.
引用
收藏
页码:1195 / 1200
页数:6
相关论文
共 1 条
[1]
TGSOM:一种用于数据聚类的动态自组织映射神经网络 [J].
王莉 ;
王正欧 .
电子与信息学报, 2003, (03) :313-319