一种基于文本单元关联网络的自动文摘方法

被引:5
作者
陶余会 [1 ]
周水庚 [1 ,2 ]
关佶红 [3 ]
机构
[1] 复旦大学计算机科学与技术学院
[2] 复旦大学上海市智能信息处理重点实验室
[3] 同济大学计算机科学与技术系
关键词
自动文摘; 抽取型文摘; 关联网络; 共现;
D O I
10.16451/j.cnki.issn1003-6059.2009.03.015
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出一种基于文本单元关联网络进行自动文摘的方法.该方法根据文本单元之间的共现关系建立关联网络,计算文本单元的共现信息量,并认为共现信息量越大的文本单元在文本中越重要.文本单元可以是单词、短语、句子或段落,本文分别构建了基于单词和基于句子的关联网络.如果网络节点是单词,则先按照本文方法计算出单词基于共现信息量的权重,再根据单词的权重计算句子的权重.如果网络节点是句子,本文则提出一种方法计算基于句间共现信息量的句子权重,据此选出权重值较大的一定比例的句子组成文摘.实验结果表明本文方法能有效改善文摘的质量,优于其它基于文本关联网络的自动文摘方法.本文方法计算出的词语权重,可以进一步应用到关键词抽取、文本分类和聚类及信息检索中.
引用
收藏
页码:440 / 444
页数:5
相关论文
共 2 条
[1]   一种基于字同现频率的汉语文本主题抽取方法 [J].
马颖华 ;
王永成 ;
苏贵洋 ;
张宇萌 .
计算机研究与发展, 2003, (06) :874-878
[2]   Automatic text structuring and summarization [J].
Salton, G ;
Singhal, A ;
Mitra, M ;
Buckley, C .
INFORMATION PROCESSING & MANAGEMENT, 1997, 33 (02) :193-207