基于关键词提取的中文网页自动文摘方法研究

被引：0

作者：

蒋昌金

机构：

[1] 华南理工大学

关键词：

自动文摘; 权重计算; 段落聚类; 中文网页; 组合词;

D O I：

暂无

年度学位：

2010

学位类型：

博士

导师：

彭宏;

摘要：

自动文摘是指由计算机将文本的中心思想或用户所需要的内容,用相同于或不同于原文的句子自动提取出来。自动文摘的生成过程,可分为文本的分析与理解、主题信息的获得和选取以及摘要的生成三个主要步骤。自动文摘的大致发展历程为:早期的基于统计的机械式自动文摘时期(如词频统计法,句子位置法);七、八十年代的基于知识表示的(如脚本、框架、模板或一阶谓词)理解型自动文摘时期;九十年代的基于信息检索的自动文摘时期;进入二十一世纪以来,融合自然语言理解与人工智能方法的综合型自动文摘时期。从自动文摘的发展历程可知:使用某种单一技术的自动文摘,信息的全面性和准确性都不高。本文主要综合利用文本浅层信息、文本语义信息、知识库方法以及人工智能技术等来获取中文网页的自动文摘。本文首先分析了文本中表达主题的词汇的本质特征,利用这些特征提出了一个词语权重计算方法,该方法能使表达主题的词汇权重更高;在此基础之上,提出了一种对问句进行分析的方法;在分析文本主题信息、语义信息等的基础上,提出了一种发现文本中最能表达主题的重要句子的方法,并运用该方法来生成自动文摘;最后提出一种毗邻段落聚类算法来提高自动文摘的质量。本文的主要创新点如下: 1、针对现有的中文关键词提取方法准确率不高的现状,通过分析分词系统的影响、同义词现象和一词多义现象等因素,提出了一种能使表达主题的关键词汇或短语有着更高权值的方法。该方法首先通过组合词提取算法识别文本中的组合词和新词,然后利用构造的有着上下文的同义词集,合并同义词的词频,避免同义词在输出结果中同现,最后利用词频、词性、词长、词的位置等综合信息来计算文本中词语的权值。实验结果表明,此方法能够较好地识别文本中的关键词,与基于改进的TF-IDF方法相比,本方法具有一定的优势。 2、提出了一种基于领域词典和问题类别对照表的中文问句分析方法。该方法在对问句进行分词、词性标注之后,提取出其中的名词、动词、形容词等实词成分,去掉虚词成分,组成一个初始查询向量。然后对初始查询向量进行同义词扩展,该扩展能使得查询返回更多的结果。最后对扩展查询向量进行问句类型关联词扩展,以限制返回结果必须含有该问句所在类型的词汇,以提高查询的准确率。实验表明,对查询向量的两次扩展确实能提高查询返回结果的质量。 3、针对现有中文自动文摘系统过于依赖标题信息的缺陷以及用户对多样化文摘的旺盛需求这一现状,提出了一种基于主题词权重和句子特征的句子权重计算方法。该方法首先使用词语权重计算公式计算词语权重,然后根据标题的类型信息以及代表用户偏好的词汇信息等修改词语的权重。再利用修改的词语权重和各种句子特征来计算句子基于内容、位置、线索词和用户偏好的权值,最后通过一个拟合函数对这四种权值进行拟合来获得句子的最终权值。实验数据证明,用该方法计算句子权重获取的文摘要优于基于改进的TF-ISF方法的文摘。 4、针对现行的基于准确率、召回率的文摘评价方法只能从句子的粒度对文摘进行评价的缺陷,提出了一种基于词粒度的文摘评价方法。该方法首先定义了广义多重集的“交”和“并”的运算,然后将人工文摘和机器文摘表示成为一个广义多重集。在此基础之上,重新定义了准确率、召回率和F值计算公式,并用它来进行文摘的评估。由于该方法可以避免内容基本相同但是句子不同的两篇文摘评估结果悬殊的问题,因而用改进的公式计算文摘的准确率和召回率更加合理。 5、针对现有的文本聚类算法计算量大、算法复杂度高、对初始类的选取过于敏感等缺陷,提出了一种毗邻段落聚类算法。该算法的思想是:首先选取文本的第一个段落作为第一个聚类;对于以后的段落,计算其跟与之相邻的前一段落的相似度,若该相似度大于某一阈值,则将该段归入它的前一段所在的类;否则,创建一个新的类,将该段加入其中,直至处理完所有段落。实验数据表明,毗邻段落聚类算法不但算法复杂度低、易于操作,而且能取得和著名的K-Means算法相当的段落聚类质量。

引用

页数：112

共 64 条

[1]

层次聚类算法的研究及应用 [D].