基于LDA模型的主题分析

被引:36
作者
石晶 [1 ]
范猛 [2 ]
李万龙 [1 ,3 ]
机构
[1] 长春工业大学计算机科学与工程学院
[2] 长春工业大学科研处
[3] 不详
关键词
主题分析; LDA模型; 文本分割; Gibbs抽样;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在文本分割的基础上,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来,主题以词串的形式表示.为了分析准确,利用LDA(Latent dirichlet allocation)为语料库及文本建模,以Clarity度量块间相似性,并通过局部最小值识别片段边界.依据词汇的香农信息提取片段主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵.实验表明,文本分析的结果明显好于其他方法,可以为下一步文本推理的工作提供有价值的预处理.
引用
收藏
页码:1586 / 1592
页数:7
相关论文
共 8 条
[1]   基于多元判别分析的文本分割模型 [J].
朱靖波 ;
叶娜 ;
罗海涛 .
软件学报, 2007, (03) :555-564
[2]   基于PLSA模型的文本分割 [J].
石晶 ;
戴国忠 .
计算机研究与发展, 2007, (02) :242-248
[3]  
Text segmentation by product partition models and dynamic programming[J] . A. Kehagias.Mathematical and Computer Modelling . 2004 (2)
[4]   A critique and improvement of an evaluation metric for text segmentation [J].
Pevzner, L ;
Hearst, MA .
COMPUTATIONAL LINGUISTICS, 2002, 28 (01) :19-36
[5]   Statistical Models for Text Segmentation [J].
Doug Beeferman ;
Adam Berger ;
John Lafferty .
Machine Learning, 1999, 34 :177-210
[6]  
Parameter Estimation for Text Analysis .2 Heinrich G. . 2008
[7]  
Using collocations for topic segmentation and link detection .2 Olivier Ferret. Proceedings of the 19th International Conference on Computational Linguistics . 2002
[8]  
Expectation-propagation for the generative aspect model .2 Minka,J. Lafferty. Proceedings of the Eighteenth Conference on Uncertainty in Artificial Intelligence . 2002