基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究

被引:45
作者
吴江
侯绍新
靳萌萌
胡忠义
机构
[1] 武汉大学信息管理学院
关键词
在线医疗社区; LDA模型; 特征提取; 文本分类; 用户聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
随着互联网时代的快速发展,在线医疗社区的出现打破了时空限制,为用户提供了丰富的医疗信息和情感帮助,已经成为社会支持的重要来源,受到用户的广泛关注和参与。对在线医疗社区进行用户文本挖掘能够揭示社区中用户的参与行为,从而优化其用户管理和信息推荐。已有的研究对象主要集中在英文在线医疗社区,鲜有文献对中文在线医疗社区进行研究。基于社会支持理论,本文设计了一个中文用户文本挖掘流程来研究中文在线医疗社区中的社会支持类型和用户参与。利用中文文本挖掘及机器学习方法,对中文糖尿病社区"甜蜜家园"进行研究。本文利用LDA(Latent Dirichlet Allocation)模型进行特征提取来构建低维度文本表示向量,采用二元分类法将用户文本分为不同的社会支持类型。最后,基于分类结果使用K-means算法进行用户聚类来识别用户角色。相比传统的特征提取方法,利用LDA进行特征提取能显著地降低数据维度,优化分类模型,提高分类准确率和分类效率。结果表明,本文提出的中文用户文本挖掘流程在文本分类与用户聚类中效果显著。
引用
收藏
页码:1183 / 1191
页数:9
相关论文
共 11 条
[1]   K-MEANS算法中的K值优化问题研究 [J].
杨善林 ;
李永森 ;
胡笑旋 ;
潘若愚 .
系统工程理论与实践, 2006, (02) :97-101
[2]   文本挖掘研究进展 [J].
谌志群 ;
张国煊 .
模式识别与人工智能, 2005, 18 (01) :65-74
[3]  
汉语语法的意合网络[M]. 商务印书馆 , 鲁川著, 2001
[4]  
Spirituality and Support: A Descriptive Analysis of Online Social Support for Depression[J] . David M. Keating.Journal of Religion and Health . 2013 (3)
[5]  
Digital health communities: The effect of their motivation mechanisms[J] . Sulin Ba,Lei Wang.Decision Support Systems . 2013
[6]  
Statistical topic models for multi-label document classification[J] . Timothy Rubin,America Chambers,Padhraic Smyth,Mark Steyvers.Machine Learning . 2012 (1)
[7]  
Internet Community Group Participation:?Psychosocial Benefits for Women with Breast Cancer[J] . ShellyRodgers,QimeiChen.Journal of Computer‐Mediated Communication . 2006 (4)
[8]  
How the internet affects patients' experience of cancer: a qualitative study[J] . Sue Ziebland,Alison Chapple,Carol Dumelow,Julie Evans,Suman Prinjha,Linda Rozmovits.BMJ: British Medical Journal . 2004 (7439)
[9]  
Internal validation of predictive models[J] . Ewout W Steyerberg,Frank E Harrell,Gerard J.J.M Borsboom,M.J.C Eijkemans,Yvonne Vergouwe,J.Dik F Habbema.Journal of Clinical Epidemiology . 2001 (8)
[10]  
Induction of decision trees[J] . J. R. Quinlan.Machine Learning . 1986 (1)