中文信息处理中若干关键技术的研究

被引:0
作者
王建会
机构
[1] 复旦大学
关键词
信息处理; 信息抽取; 属性选择; 聚类; 分类; 子空间; 自动摘要; 自动主题标引; 依存关系; 模式识别;
D O I
暂无
年度学位
2004
学位类型
博士
导师
摘要
随着科学技术的高速发展,以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生成以及信息检索等等。其中,属性选择是一项较为重要的基础性研究工作,为其它的研究提供基础和前提。而其它研究工作可以有效地、而且较为准确地抽取出有用信息、挖掘出新的知识,提高获取大量有用信息的效率和速度。 针对当前对信息处理的需求,本文对中文信息处理中的若干关键技术进行了研究。本文的主要研究内容和贡献如下: 1.改进了N-gram切词算法和基于概率统计的属性选择算法。在信息处理研究领域,迄今为止,已提出了多种属性选择算法。由于基于字典的属性选择算法,需要花费大量的时间和精力来建辞典,所以,大多数现有的算法都是基于概率统计的。研究发现,现有算法在以下几个方面尚有待改进:(1)这些算法所依据的评分策略,没有充分地考虑词语在类之间和类内文档间的分布特性,要么只是基于传统的TF/IDF,要么只是基于词语在类间的分布特性;(2)现有的N-gram切词算法的效率有待提高;(3)现有算法在选择属性时,没有考虑相互重叠的词串之间的筛选问题;(4)现有算法没有考虑词语的位置对其重要性的影响。针对这些问题,本文改进了N-gram切词算法,并充分考虑词语的分布特性和位置的重要性,准确地处理叠词,提出了新的基于统计的属性选择算法,扩展和改进了现有算法。实验结果表明,本文提出的算法可以有效地提高属性选择的精度,从而改善信息处理的性能。 2.改进了词语间依存关系的定量识别策略。本文扩展和改进了现有的基于统计的词语间依存关系定量识别算法,力图解决现有算法中存在的有待改进的不足之处,提高识别的准确率,从而提高信息处理和自然语言处理等的时空效率和性能。为此,本文作了以下贡献和创新工作:(1)充分考虑词项的概率分布的影响,不仅能够有效地识别出相邻词项之间的依存关系,还可以识别出不相邻词项之间和潜在的依存关系;(2)明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;(3)提出字串匹配模型,以此识别部分词项之间的从属关系;(4)充分考虑两个词项之间相互位置的离散分布和距离的 摘要 影响、以及它们的概率分布特:性,提出词项间的依存强度模型,并据此 构建词语间依存关系树;(5)提出更新策略,对已经建好的依存关系树 进行裁剪,并从己建好的依存关系树中挖掘出不相邻词项之间的依存关 系和潜在的依存关系。应用实验的结果表明,本文提出的算法可以有效 地识别出词语间的依存关系,从而改善信息处理和自然语言处理等的性 育旨。 提出了一种具有增量学习能力、高效的信息分类算法。在模式识别研究 领域,在己有的分类算法中,大多数都是基于向量空间模型的算法,其 中使用范围最广的是kNN算法;,但是,其中的大多数算法都因为计算复杂 度太高,而不适合于大规模的场合,而且,当训练样本集增大时,都需 要重新生成分类器,可扩展性差。本文提出了互依赖和等效半径的概念, 并将两者相结合,提出新的分类算法—基于互依赖和等效半径、易更 新的分类算法SECTILE,SECT工LE计算复杂度较低,而且扩展性能较好, 适用于大规模场合。将SECTILE算法应用于中文文本分类,并与kNN算法 和类中心向量法进行比较,结果表明,在保证不损失分类精度的前提下, SECTILE可以大大提高分类速度,有利于对大规模信息样本进行实时在线 的自动分类。 提出了一种基于子空间的信J息聚类算法。在信息处理研究领域,现有的 大多数聚类算法都需要人为给出一些参数,而且时空效率也有待于进一 步提高。然而,在没有先验知识的情况下,人为确定这些参数是十分困 难的。为了解决这一难题,本文提出了一种实用而且高效的聚类算法, 力图避免需要人为事先确定的参数,同时提高时空效率和信息处理的性 能。此外,本文还从多个角度分析了该算法的性能,并将该算法应用于 中文文本聚类,结果表明,该算法不需要人为确定参数,同时,还提高 了信息处理的时空效率和性能。 提出基于子空间上子主题聚类的信息摘要算法。自动摘要的算法大致可 分为两大类,一类是基于统计的算法,另一类是基于知识理解的算法。 前者与领域无关,但是精度低;后者准确度高,但是应用范围受到领域 限制。鉴于此,本文提出了一种基于主题聚类的自动摘要算法,采用统 计方法的同时,适当结合知识理解,既摆脱了领域限制,又使摘要的结 果更为准确。此外,本文还提出了一种较为客观的、基于任务的摘要性 能评估算法。 本文提出了一种自适应于不同样本的、动态确定摘要长度的策略。随着 信息技术的发展和信息量的大量增多,提出了很多自动摘要的算法。在 彭 摘要 这些众多的算法中,都有一个共同的现象—摘要的长度均需事先给定。 然而,实际的情况是,随着信息样本的不同,该信息样本所包含的信息 量也是不同的。为了能够全面地反映
引用
收藏
页数:185
共 71 条
[1]
中文信息处理开放平台的设计.[A].刘群;张浩;白硕;.第一届学生计算语言学研讨会.2002,
[2]
Concept decompositions for large sparse text data using clustering [J].
Dhillon, IS ;
Modha, DS .
MACHINE LEARNING, 2001, 42 (1-2) :143-175
[3]
Lazy learning of Bayesian rules [J].
Zheng, ZJ ;
Webb, GI .
MACHINE LEARNING, 2000, 41 (01) :53-84
[4]
Finding generalized projected clusters in high dimensional spaces [J].
Aggarwal, CC ;
Yu, PS .
SIGMOD RECORD, 2000, 29 (02) :70-81
[5]
BoosTexter: A boosting-based system for text categorization [J].
Schapire, RE ;
Singer, Y .
MACHINE LEARNING, 2000, 39 (2-3) :135-168
[6]
Data clustering.[J].A. K. Jain;M. N. Murty;P. J. Flynn.ACM Computing Surveys (CSUR).1999, 3
[7]
Families of splitting criteria for classification trees [J].
Shih, YS .
STATISTICS AND COMPUTING, 1999, 9 (04) :309-315
[8]
Automatic construction of decision trees from data: A multi-disciplinary survey [J].
Murthy, SK .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (04) :345-389
[9]
Principal direction divisive partitioning [J].
Boley, D .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (04) :325-344
[10]
Density-based clustering in spatial databases: The algorithm GDBSCAN and its applications [J].
Sander, J ;
Ester, M ;
Kriegel, HP ;
Xu, XW .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :169-194