LDA模型下书目信息分类系统的研究与实现

被引:11
作者
李湘东 [1 ]
廖香鹏 [1 ]
黄莉 [2 ]
机构
[1] 武汉大学信息管理学院
[2] 武汉大学图书馆
关键词
LDA模型; 文本分类; 向量空间模型; Gibbs抽样; SVM;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】改善图书和期刊论文等的书目信息的分类性能。【应用背景】采用传统向量空间模型对图书和期刊论文等书目信息分类的效果不理想,通过LDA模型挖掘文本隐含语义信息,能有效提高分类效果。【方法】通过LDA建模,用隐含主题表示文本并通过分类效果确定最优主题数,在此基础上采用SVM算法分类。【结果】实验表明,在复旦和Sogou公开语料库中的MacroF1分别达到95.5%和93.5%;在馆藏目录及电子期刊数据库等真实书目数据中的MacroF1分别达到77.4%和87.6%。【结论】在真实数据上的分类性能比传统向量空间模型分别提高10%和3%,达到实用水平。
引用
收藏
页码:18 / 25
页数:8
相关论文
共 9 条
[1]   基于LDA主题模型的短文本分类方法 [J].
张志飞 ;
苗夺谦 ;
高灿 .
计算机应用, 2013, 33 (06) :1587-1590
[2]   基于LDA主题模型的遥感图像表示与分类 [J].
孙李斌 ;
马贤明 ;
赵明明 .
科技视界, 2013, (07) :58+63-58
[3]   基于LDA模型的Twitter中文微博热点主题词组发现 [J].
孙世杰 ;
濮建忠 .
洛阳师范学院学报, 2012, 31 (11) :60-64+81
[4]   基于LDA主题模型的安全漏洞分类 [J].
廖晓锋 ;
王永吉 ;
范修斌 ;
吴敬征 .
清华大学学报(自然科学版), 2012, 52 (10) :1351-1355
[5]   基于LDA主题模型的软件缺陷分派方法 [J].
黄小亮 ;
郁抒思 ;
关佶红 .
计算机工程, 2011, 37 (21) :46-48
[6]   基于LDA模型的文本分类研究 [J].
姚全珠 ;
宋志理 ;
彭程 .
计算机工程与应用 , 2011, (13) :150-153
[7]   基于LDA模型的博客垃圾评论发现 [J].
刁宇峰 ;
杨亮 ;
林鸿飞 .
中文信息学报, 2011, (01) :41-47
[8]   一种基于密度的自适应最优LDA模型选择方法 [J].
曹娟 ;
张勇东 ;
李锦涛 ;
唐胜 .
计算机学报, 2008, (10) :1780-1787
[9]  
Maximum Likelihood from Incomplete Data via the EM Algorithm[J] . A. P. Dempster,N. M. Laird,D. B. Rubin.Journal of the Royal Statistical Society. Series . 1977 (1)