基于统计的多文档关键短语和文摘抽取研究

被引：0

作者：

张永刚

机构：

[1] 苏州大学

关键词：

信息抽取; 关键短语; 多文档文摘; 共聚类; 术语; 自然语言处理;

D O I：

暂无

年度学位：

2010

学位类型：

硕士

导师：

姚建民;

摘要：

关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。多文档关键短语和文摘用短语和句子的形式反映多文档主题内容。关键短语主要由多词单元短语的形式出现,文摘将同一主题的文档汇总抽取重要句子组成。本文首先介绍了短语识别的方法,因为短语识别的质量直接影响关键短语和文摘抽取的结果。其次重点介绍了关键短语和文摘抽取的三个系统,S-MMR系统是把比较成熟的单文档关键短语和文摘抽取方法应用到多文档抽取系统中;G-HITS系统是用基于链接分析算法同时计算句子和短语的重要性,这两个系统在文摘生成时用MMR计算避免抽取到冗余信息,取得了比较好的实验结果。上面二个关键短语和文摘抽取方法在相似信息处理上采用的是MMR技术避免文摘生成冗余,在吸取这两个方法优点的基础上结合共聚类算法提出基于共聚类的多文档关键短语和文摘抽取方法,该方法利用了相似信息,这是本文的重点也是创新点。系统在短语识别的基础上首先构建句子指向包含短语的有向图,把句子和短语的有向图转化为等价的权重矩阵。在句子和短语的权重矩阵上运用共聚类抽取算法,算法在迭代中依次用基于图的链接分析算法计算句子和短语的权重及对句子和短语分别聚类,在此过程中权重计算和聚类互相影响,句子和短语的权重及类别变化互相影响互相增强,最后达到全局最优权重即聚类不在变化时退出迭代。实验结果表明,基于共聚类系统抽取的关键短语和文摘质量较高,运行高效。在公共的评测语料DUC2004上用ROUGE评测方法,在评测指标ROUGE-1的Average-F值是38.459%,ROUGE-2的Average-F值是0.09382%,高于其它自动文摘。

引用

页数：70

共 10 条

[1]

Applying regression models to query-focused multi-document summarization.[J].You Ouyang;Wenjie Li;Sujian Li;Qin Lu.Information Processing and Management.2010, 2

[2]

A document-sensitive graph model for multi-document summarization [J].

Wei, Furu ;

Li, Wenjie ;

Lu, Qin ;

He, Yanxiang .

KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 22 (02) :245-259

[3]

Summarizing Similarities and Differences Among Related Documents [J].

Inderjeet Mani ;

Eric Bloedorn .

Information Retrieval, 1999, 1 (1-2) :35-67

[4]

The anatomy of a large-scale hypertextual Web search engine.[J].Sergey Brin;Lawrence Page.Computer Networks and ISDN Systems.1998, 1

[5]

Technical terminology: some linguistic properties and an algorithm for identification in text.[J].John S. Justeson;Slava M. Katz.Natural Language Engineering.1995, 1

[6]

以关键词抽取为核心的文摘句选择策略 [J].