基于主题分析的文本分割技术研究

被引:6
作者
刘铭
王晓龙
刘远超
机构
[1] 哈尔滨工业大学计算机科学与技术学院
基金
国家自然科学基金重点项目;
关键词
主题分析; 词汇链; 知网; 二次划分;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文提出一种新颖的文本分割算法,算法首先将待分割文档划分为若干片段的集合,然后构造全文词汇链分析文中描述的多个子主题,并通过构造片段对子主题的覆盖图将描述相同子主题的相似片段归类.针对段落分割点可能落在片段内部的情况,算法对片段进行二次划分.实验表明:在对文档进行主题分析后,算法能够过滤掉与主题无关的特征对分割结果的干扰;构造的片段对子主题的覆盖图融合了相邻及相间片段的相似性,加大了划分的准确度;对片段进行二次划分使得分割的结果更加合理.
引用
收藏
页码:278 / 284
页数:7
相关论文
共 5 条
[1]   基于多元判别分析的文本分割模型 [J].
朱靖波 ;
叶娜 ;
罗海涛 .
软件学报, 2007, (03) :555-564
[2]   基于PLSA模型的文本分割 [J].
石晶 ;
戴国忠 .
计算机研究与发展, 2007, (02) :242-248
[3]   基于线性融合模型的多传感器图像融合 [J].
佘二永 ;
王润生 .
电子学报, 2005, (06) :1008-1010
[4]   Using lexical chains for keyword extraction [J].
Ercan, Gonenc ;
Cicekli, Ilyas .
INFORMATION PROCESSING & MANAGEMENT, 2007, 43 (06) :1705-1714
[5]  
SeLeCT: a lexical cohesion based news story segmentation system[J] . Thierry Vidal,Paolo Liberatore,Nicola Stokes,Joe Carthy,Alan F. Smeaton.AI Communications . 2004 (1)