共 3 条
采用并行遗传算法的文本分割研究
被引:3
作者:
赵煜
[1
]
蔡皖东
[1
]
樊娜
[1
]
刘念
[2
]
机构:
[1] 西北工业大学计算机学院
[2] 西安建筑科技大学图书馆
来源:
基金:
高等学校博士学科点专项科研基金;
关键词:
中文信息处理;
文本分割;
遗传算法;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
针对短篇幅文本数据稀疏的特性,提出了一种利用外部语料库知识提高短篇幅文本分割准确率的方法.该方法分2个步骤完成:①利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LDA)模型,并利用该模型推断目标文本的潜在语义结构信息;②通过定义语义段落内凝聚性和语义段落间发散性2个目标函数,将文本分割问题转化为多目标优化问题.采用一种针对文本分割的并行遗传算法,获得全局最优解.通过实验,在文本数据稀疏的情况下,该算法在准确率方面优于多元判别分析(MDA)方法和基于LDA的文本分割方法,对于提高文本分割的准确率是可行和有效的.
引用
收藏
页码:40 / 44
页数:5
相关论文