采用并行遗传算法的文本分割研究

被引:3
作者
赵煜 [1 ]
蔡皖东 [1 ]
樊娜 [1 ]
刘念 [2 ]
机构
[1] 西北工业大学计算机学院
[2] 西安建筑科技大学图书馆
基金
高等学校博士学科点专项科研基金;
关键词
中文信息处理; 文本分割; 遗传算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对短篇幅文本数据稀疏的特性,提出了一种利用外部语料库知识提高短篇幅文本分割准确率的方法.该方法分2个步骤完成:①利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LDA)模型,并利用该模型推断目标文本的潜在语义结构信息;②通过定义语义段落内凝聚性和语义段落间发散性2个目标函数,将文本分割问题转化为多目标优化问题.采用一种针对文本分割的并行遗传算法,获得全局最优解.通过实验,在文本数据稀疏的情况下,该算法在准确率方面优于多元判别分析(MDA)方法和基于LDA的文本分割方法,对于提高文本分割的准确率是可行和有效的.
引用
收藏
页码:40 / 44
页数:5
相关论文
共 3 条
[1]   基于LDA模型的文本分割 [J].
石晶 ;
胡明 ;
石鑫 ;
戴国忠 .
计算机学报, 2008, (10) :1865-1873
[2]   基于多元判别分析的文本分割模型 [J].
朱靖波 ;
叶娜 ;
罗海涛 .
软件学报, 2007, (03) :555-564
[3]   基于PLSA模型的文本分割 [J].
石晶 ;
戴国忠 .
计算机研究与发展, 2007, (02) :242-248