中文信息处理中若干关键技术的研究

被引：0

作者：

王建会

机构：

[1] 复旦大学

关键词：

信息处理; 信息抽取; 属性选择; 聚类; 分类; 子空间; 自动摘要; 自动主题标引; 依存关系; 模式识别;

D O I：

暂无

年度学位：

2004

学位类型：

博士

导师：

胡运发;

摘要：

随着科学技术的高速发展，以及各种资源数量的不断增多，为了提高效率，信息处理已经成为当前最重要的研究内容，其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生成以及信息检索等等。其中，属性选择是一项较为重要的基础性研究工作，为其它的研究提供基础和前提。而其它研究工作可以有效地、而且较为准确地抽取出有用信息、挖掘出新的知识，提高获取大量有用信息的效率和速度。针对当前对信息处理的需求，本文对中文信息处理中的若干关键技术进行了研究。本文的主要研究内容和贡献如下： 1．改进了N-gram切词算法和基于概率统计的属性选择算法。在信息处理研究领域，迄今为止，已提出了多种属性选择算法。由于基于字典的属性选择算法，需要花费大量的时间和精力来建辞典，所以，大多数现有的算法都是基于概率统计的。研究发现，现有算法在以下几个方面尚有待改进：(1)这些算法所依据的评分策略，没有充分地考虑词语在类之间和类内文档间的分布特性，要么只是基于传统的TF／IDF，要么只是基于词语在类间的分布特性；(2)现有的N-gram切词算法的效率有待提高；(3)现有算法在选择属性时，没有考虑相互重叠的词串之间的筛选问题；(4)现有算法没有考虑词语的位置对其重要性的影响。针对这些问题，本文改进了N-gram切词算法，并充分考虑词语的分布特性和位置的重要性，准确地处理叠词，提出了新的基于统计的属性选择算法，扩展和改进了现有算法。实验结果表明，本文提出的算法可以有效地提高属性选择的精度，从而改善信息处理的性能。 2．改进了词语间依存关系的定量识别策略。本文扩展和改进了现有的基于统计的词语间依存关系定量识别算法，力图解决现有算法中存在的有待改进的不足之处，提高识别的准确率，从而提高信息处理和自然语言处理等的时空效率和性能。为此，本文作了以下贡献和创新工作：(1)充分考虑词项的概率分布的影响，不仅能够有效地识别出相邻词项之间的依存关系，还可以识别出不相邻词项之间和潜在的依存关系；(2)明确区分词项之间的搭配关系、并列关系和从属关系，针对它们不同的特点，提出不同的识别算法；(3)提出字串匹配模型，以此识别部分词项之间的从属关系；(4)充分考虑两个词项之间相互位置的离散分布和距离的摘要影响、以及它们的概率分布特:性，提出词项间的依存强度模型，并据此构建词语间依存关系树;(5)提出更新策略，对已经建好的依存关系树进行裁剪，并从己建好的依存关系树中挖掘出不相邻词项之间的依存关系和潜在的依存关系。应用实验的结果表明，本文提出的算法可以有效地识别出词语间的依存关系，从而改善信息处理和自然语言处理等的性育旨。提出了一种具有增量学习能力、高效的信息分类算法。在模式识别研究领域，在己有的分类算法中，大多数都是基于向量空间模型的算法，其中使用范围最广的是kNN算法;，但是，其中的大多数算法都因为计算复杂度太高，而不适合于大规模的场合，而且，当训练样本集增大时，都需要重新生成分类器，可扩展性差。本文提出了互依赖和等效半径的概念，并将两者相结合，提出新的分类算法—基于互依赖和等效半径、易更新的分类算法SECTILE，SECT工LE计算复杂度较低，而且扩展性能较好，适用于大规模场合。将SECTILE算法应用于中文文本分类，并与kNN算法和类中心向量法进行比较，结果表明，在保证不损失分类精度的前提下， SECTILE可以大大提高分类速度，有利于对大规模信息样本进行实时在线的自动分类。提出了一种基于子空间的信J息聚类算法。在信息处理研究领域，现有的大多数聚类算法都需要人为给出一些参数，而且时空效率也有待于进一步提高。然而，在没有先验知识的情况下，人为确定这些参数是十分困难的。为了解决这一难题，本文提出了一种实用而且高效的聚类算法，力图避免需要人为事先确定的参数，同时提高时空效率和信息处理的性能。此外，本文还从多个角度分析了该算法的性能，并将该算法应用于中文文本聚类，结果表明，该算法不需要人为确定参数，同时，还提高了信息处理的时空效率和性能。提出基于子空间上子主题聚类的信息摘要算法。自动摘要的算法大致可分为两大类，一类是基于统计的算法，另一类是基于知识理解的算法。前者与领域无关，但是精度低;后者准确度高，但是应用范围受到领域限制。鉴于此，本文提出了一种基于主题聚类的自动摘要算法，采用统计方法的同时，适当结合知识理解，既摆脱了领域限制，又使摘要的结果更为准确。此外，本文还提出了一种较为客观的、基于任务的摘要性能评估算法。本文提出了一种自适应于不同样本的、动态确定摘要长度的策略。随着信息技术的发展和信息量的大量增多，提出了很多自动摘要的算法。在彭摘要这些众多的算法中，都有一个共同的现象—摘要的长度均需事先给定。然而，实际的情况是，随着信息样本的不同，该信息样本所包含的信息量也是不同的。为了能够全面地反映

引用

页数：185

共 71 条

[1]

中文信息处理开放平台的设计.[A].刘群;张浩;白硕;.第一届学生计算语言学研讨会.2002,

[2]

Concept decompositions for large sparse text data using clustering [J].