一种词聚类LDA的商品特征提取算法

被引:12
作者
彭云 [1 ,2 ]
万常选 [1 ,2 ]
江腾蛟 [1 ,2 ]
刘德喜 [1 ,2 ]
刘喜平 [1 ,2 ]
机构
[1] 江西财经大学信息管理学院
[2] 江西财经大学数据与知识工程江西省高校重点实验室
关键词
词聚类; 上下文相关; LDA模型; 特征提取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
商品评论中经常会使用一些词义近似或上下文相关的中低频词来描述商品特征,如何有效辨识这些中低频词是商品特征抽取的一个难点.由于缺乏先验知识,主题模型难以发现并抽取中低频特征词.提出基于词义相似度和上下文相关度相结合的词聚类度量算法,在此基础上构建了一种基于词聚类先验知识的潜在狄利克雷分配的商品主题特征提取模型.首先对词项按词义相似度、上下文相关度进行聚类;然后在商品主题特征抽取中引入词聚类因素作为权重影响因子,使得同一个聚类簇中的词项属于同一主题的概率增加.相关实验结果表明,本文提出的词聚类和特征提取算法具有较好的效果.
引用
收藏
页码:1458 / 1463
页数:6
相关论文
共 4 条
[1]  
同义词词林.[M].梅家驹等编;.上海辞书出版社.1996,
[2]   基于同义词词林的词语相似度计算方法 [J].
田久乐 ;
赵蔚 .
吉林大学学报(信息科学版), 2010, 28 (06) :602-608
[3]   一种反映词语相关度语义库的构建方法 [J].
徐南轩 ;
邹恒明 .
上海交通大学学报, 2008, (07) :1129-1132
[4]   中文词语语义相似度计算——基于《知网》2000 [J].
李峰 ;
李芳 .
中文信息学报, 2007, (03) :99-105