科技文献中作者研究兴趣动态发现

被引:13
作者
史庆伟
李艳妮
郭朋亮
机构
[1] 辽宁工程技术大学软件学院
关键词
主题模型; 时序分析; 无监督学习; 文本模型; 困惑度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题-词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布。主题-词项分布与作者-主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律。采用吉布斯采样的方法,通过学习文档集可以获得模型的参数。在1700篇NIPS会议论文集上的实验结果显示,作者主题演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低。
引用
收藏
页码:3080 / 3083
页数:4
相关论文
empty
未找到相关数据