一种融合外部特征的改进主题模型

被引:5
作者
杨如意
刘东苏
李慧
机构
[1] 西安电子科技大学经济与管理学院
关键词
LDA模型; DAT模型; 文本挖掘; 吉布斯采样;
D O I
暂无
中图分类号
G254 [文献标引与编目];
学科分类号
摘要
【目的】在LDA模型基础上融合时间和作者特征,提出动态作者主题(DAT)模型,更好地揭示文本内容、主题和作者之间的关系。【应用背景】从海量文本中实现特征抽取和语义挖掘已经成为情报研究人员的重要工作。【方法】获取NIPS会议论文作为数据集并进行预处理,按发表年份划分到每个时间片形成一阶马尔科夫链,使用困惑度确定最优主题数,并在每个时间片内通过吉布斯采样估算作者主题概率分布和主题词项概率分布。【结果】实验结果表明,该模型将文档表示为作者主题概率分布和主题词项概率分布,时间维度上可观测主题强度变化和作者兴趣变化。【结论】DAT模型能够有效地融合文档内容与外部特征,实现文本挖掘。
引用
收藏
页码:48 / 54
页数:7
相关论文
共 5 条
[1]   基于动态LDA主题模型的内容主题挖掘与演化 [J].
胡吉明 ;
陈果 .
图书情报工作, 2014, 58 (02) :138-142
[2]   作者主题演化模型及其在研究兴趣演化分析中的应用 [J].
史庆伟 ;
乔晓东 ;
徐硕 ;
农国武 .
情报学报, 2013, 32 (09) :912-919
[3]   自然语言处理中主题模型的发展 [J].
徐戈 ;
王厚峰 .
计算机学报, 2011, 34 (08) :1423-1436
[4]   基于Labeled-LDA模型的文本分类新算法 [J].
李文波 ;
孙乐 ;
张大鲲 .
计算机学报, 2008, (04) :620-627
[5]  
基于概率主题模型的文献知识挖掘[J]. 王萍. 情报学报. 2011 (06)