基于概念统计和语义层次分析的英文自动文摘研究

被引:10
作者
季姮
罗振声
万敏
高小云
机构
[1] 清华大学人文学院计算语言学研究室
[2] 清华大学人文学院计算语言学研究室 北京
[3] 北京
关键词
计算机应用; 中文信息处理; 概念统计; 主题概念; 向量空间模型; 句子重要度; 意义块划分;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
传统的自动文摘方法基于词语统计抽取文摘句 ,未进行文本的语义分析 ,导致文摘精度不高。为了克服传统方法的缺点 ,本文提出了一种基于主题概念的自动文摘方法 ,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计 ,基于主题概念构建向量空间模型 ,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块 ,以意义块为单元抽取文摘 ,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造 ,主题概念的抽取步骤 ,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明 ,通过概念统计和语义层次分析的方法 ,我们设计了更理想的向量空间模型 ,系统生成的文摘精度较高 ,并更全面地反映了原文的主要内容
引用
收藏
页码:14 / 20
页数:7
相关论文
共 1 条
[1]   面向非受限领域的综合式自动中文文摘方法 [J].
郭玉箐 ;
万敏 ;
罗振声 .
清华大学学报(自然科学版), 2002, (01) :139-142