基于概率模型的主题识别方法实证研究

被引:11
作者
叶春蕾 [1 ,2 ]
冷伏海 [1 ]
机构
[1] 中国科学院国家科学图书馆
[2] 北京城市学院信息学部
关键词
概率模型; 共词分析; 主题识别; 聚类分析;
D O I
10.13833/j.cnki.is.2013.02.030
中图分类号
G353.1 [情报资料的分析和研究];
学科分类号
1205 ;
摘要
共词聚类分析方法是科技情报分析的一种重要的方法和技术,已逐渐发展成为科技情报分析中最活跃的研究领域之一。共词聚类分析方法可以形成一系列由科技文献组成的文献聚类,这些聚类所包含的主题特征对于揭示学科领域知识发展变化具有很好的指示作用。本文分析了基于词频统计共词分析的主题识别方法及其局限,提出基于概率模型的主题识别方法。实验表明,该方法可以充分地利用概率模型的优点,改进了传统共词分析方法的不足,从而可以更好地应用于主题分析中的主题识别环节。
引用
收藏
页码:135 / 139
页数:5
相关论文
共 10 条
[1]  
Mapping acidification research: A test of the co-word method[J] . J. Law,J. Whittaker. &nbspScientometrics . 1992 (3)
[2]  
Co-word analysis as a tool for describing the network of interactions between basic and technological research: The case of polymer chemsitry[J] . M. Callon,J. P. Courtial,F. Laville. &nbspScientometrics . 1991 (1)
[3]  
Mapping the dynamics of science and technology: sociology of science in the real world. Callon M,Law J,Rip A. . 1986
[4]  
Latent Dirichlet allocation. Blei D M,Ng A Y,Jordan M I. Journal of Machine Learning Research . 2003
[5]  
Software engineering as seen through its research literature: A study in co-word analysis. Coulter, N,Monarch I,Konda, S. Journal of the American Society for Information Science . 1998
[6]  
Data-base tomography for technical intelligence:a roadmap of thenear-earth space science and technology literature. KOSTOFF R N,EBERHART H J,TOOTHMAN D R. Infor-mation Processing&Management . 1997
[7]  
Fullerene data min-ing using bibliometrics and database tomography. Kostoff R N,Braun T,Schubert R,et al. Journal of Chemistry . 2000
[8]  
The 1998 ACM Computing Classification Systeme. http://www.acm.org/about/class/ccs98-html . 2005
[9]   自然语言理解的全信息方法论 [J].
钟义信 .
北京邮电大学学报, 2004, (04) :1-12
[10]  
基于C-value与TF-IDF的文献簇主题识别研究[J]. 陈仕吉,王小梅.  报学报. 2009 (06)