基于最大熵的自动文摘技术研究

被引:0
作者
陈淑栋
机构
[1] 昆明理工大学
关键词
自动文摘; 最大熵; 特征提取;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
当今社会,电子信息数量急剧增长。对信息的浓缩和查询等问题的研究工作显得尤为重要。自动文摘可以降低人工文摘的成本,缩短文摘加工和处理时间,为用户快速、准确和廉价的获取信息提供方便,加快了人们获取相关资源的速度。本文提出了一种基于最大熵的自动摘要方法,该方法最初通过对训练集文本进行人工摘要和句子特征标注,训练得到基于最大熵的自动文摘系统。进入摘要阶段后,首先对待处理文本进行句子特征抽取;然后利用基于最大熵的自动文摘系统产生文摘候选句;最后对候选句进行冗余消除,得到最终文摘。在句子特征抽取方面,本方法使用了综合的句子特征,包括F-词频特征、T-标题特征、L-位置特征、S-句法结构特征、C-线索词特征、I-指示词特征等。这些特征分别从不同的程度表征了文章的中心主题句,但都不够全面和准确。许多研究者试图将以上各种特征“有机”的结合起来提高文摘质量,即以W=f (F, T, L, S, C, I)作为计算句子权值的公式,实践证明,对于函数f的确定不够理想。本文根据最大熵原理,设计了一种自动文摘方法,在文摘句的选取方面充分结合了以上几种特征。通过实验表明,该方法是有效的。实验和示例结果显示新的方法具有较好的实用效果。文章的后面部分给出了本文摘系统的总体设计和主要模块的描述。 本文的主要研究内容如下: 1.对国内外自动文摘的现状进行了分析,研究了自动文摘现有的技术方法,并对现有的文摘方法进行了总结和分类,重点对文摘句的各方面特征进行了总结研究。 2.研究了最大熵模型的基本原理,对最大熵的历史,最大熵的应用,最大熵的数学表示、特征函数、参数估算等内容做了深入的研究。 3.结合最大熵原理和自动文摘技术特点,提出了基于最大熵的自动文摘思想,设计了最大熵模型在自动文摘中的使用模式。 4.利用文摘句的多方面特性,设计了最大熵的自动文摘句子特征提取规则,研究了不同特征组合的对文摘结果的不同影响。 5.设计实现了基于最大熵的自动文摘实验系统,将实验结果与基于贝叶斯原理的文摘系统进行了对比研究,分析了基于最大熵的自动文摘系统的效果。
引用
收藏
页数:82
共 25 条
[1]
自动编制文摘技术研究综述 [J].
卢小平 .
现代情报, 2009, 29 (10) :221-225
[2]
基于用户查询的中文自动文摘研究 [J].
蒋效宇 ;
樊孝忠 ;
陈康 .
计算机工程与应用 , 2008, (05) :48-50
[3]
一种新的自动文摘系统评价方法 [J].
傅间莲 ;
陈群秀 .
计算机工程与应用, 2006, (18) :176-177
[4]
Internet上文本的自动摘要技术 [J].
尹存燕 ;
戴新宇 ;
陈家骏 .
计算机工程, 2006, (03) :88-90
[5]
文本聚类在自动文摘中的应用研究 [J].
郭庆琳 ;
樊孝忠 ;
柳长安 .
计算机应用, 2005, (05) :1036-1038
[6]
自然语言理解的全信息方法论 [J].
钟义信 .
北京邮电大学学报, 2004, (04) :1-12
[7]
潜在语义分析理论及其应用 [J].
盖杰 ;
王怡 ;
武港山 .
计算机应用研究, 2004, (03) :9-12+20
[8]
论文本的自动摘要.[J].王永成;刘功申;刘传汉;胡佩华;孙展;.中国索引.2003, 02
[9]
论文本的自动摘要.[J].王永成;刘功申;刘传汉;胡佩华;孙展;.中国索引.2003, 02
[10]
基于最大熵方法的中英文基本名词短语识别 [J].
周雅倩 ;
郭以昆 ;
黄萱菁 ;
吴立德 .
计算机研究与发展, 2003, (03) :440-446