融合PAM和主题偏好TextRank的历史沿革信息抽取

被引:6
作者
田长波
林民
斯日古楞
机构
[1] 内蒙古师范大学计算机与信息工程学院
关键词
信息抽取; 历史沿革; PAM; TextRank; 主题模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对从自然标注大数据中抽取历史沿革主题信息的问题,提出了一种融合PAM主题模型与主题偏好TextRank的方法。该方法利用PAM主题模型获取历史沿革主题基于其他相关主题的分布和不同主题基于词的分布;主题偏好TextRank算法则根据PAM所获得的主题和词的分布,在随机游走的过程中更加偏好于与历史沿革主题相关度大的节点,从而更有利于抽取历史沿革主题信息。因历史沿革主题特征复杂,与其他主题关联度大,词项本身是否表达历史沿革主题信息也并不明确,因此PAM既可以获取基于词空间的分布,又可以获取基于主题分布,对解决这类问题有很大的帮助。利用已获取的主题信息,主题偏好TextRank算法偏向于与历史沿革主题相关的节点进行随机游走,使得抽取结果趋向于历史沿革主题,从而提高了抽取的准确性。实验结果表明,该方法在抽取历史沿革主题信息上更有效。
引用
收藏
页码:123 / 127
页数:5
相关论文
共 16 条
[1]  
Dynamic topic models. BLEI D M,LAFFERTY J D. Proceedings of the 23rd International Conference on MachineLearning . 2006
[2]  
基于概率生成模型的文本主题建模及其应用[D]. 丁轶群.浙江大学 2010
[3]   基于主题特征的关键词抽取 [J].
刘俊 ;
邹东升 ;
邢欣来 ;
李英豪 .
计算机应用研究, 2012, 29 (11) :4224-4227
[4]  
Pachinko allocation:DAG-structured mixture models of topic correlations. Wei Li,Andrew McCallum. Proceedings of the 23rd international conference on Machine learning . 2006
[5]   自然语言处理中主题模型的发展 [J].
徐戈 ;
王厚峰 .
计算机学报, 2011, 34 (08) :1423-1436
[6]  
Topic models for taxonomies. Bakalov A,Mc Callum A,Wallach H,et al. Proc of the 12th ACM/IEEE-CS Joint Conference on Digital Libraries . 2012
[7]   PAM概率主题模型研究综述 [J].
余淼淼 ;
王俊丽 ;
赵晓东 ;
岳晓冬 .
计算机科学, 2013, 40 (05) :1-7+23
[8]   融合LDA与TextRank的关键词抽取研究 [J].
顾益军 ;
夏天 .
现代图书情报技术 , 2014, (Z1) :41-47
[9]  
Evaluating Entity Linking with Wikipedia[J] . Ben Hachey,Will Radford,Joel Nothman,Matthew Honnibal,James R. Curran. &nbspArtificial Intelligence . 2013
[10]  
Capturing correlations of multiple labels: A generative probabilistic model for multi-label learning[J] . Haiping Ma,Enhong Chen,Linli Xu,Hui Xiong. &nbspNeurocomputing . 2012