学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
中文信息处理中若干关键技术的研究
被引:0
作者
:
论文数:
引用数:
h-index:
机构:
王建会
机构
:
[1]
复旦大学
关键词
:
信息处理;
信息抽取;
属性选择;
聚类;
分类;
子空间;
自动摘要;
自动主题标引;
依存关系;
模式识别;
D O I
:
暂无
年度学位
:
2004
学位类型
:
博士
导师
:
胡运发;
摘要
:
随着科学技术的高速发展,以及各种资源数量的不断增多,为了提高效率,信息处理已经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息结构分析、文本生成以及信息检索等等。其中,属性选择是一项较为重要的基础性研究工作,为其它的研究提供基础和前提。而其它研究工作可以有效地、而且较为准确地抽取出有用信息、挖掘出新的知识,提高获取大量有用信息的效率和速度。 针对当前对信息处理的需求,本文对中文信息处理中的若干关键技术进行了研究。本文的主要研究内容和贡献如下: 1.改进了N-gram切词算法和基于概率统计的属性选择算法。在信息处理研究领域,迄今为止,已提出了多种属性选择算法。由于基于字典的属性选择算法,需要花费大量的时间和精力来建辞典,所以,大多数现有的算法都是基于概率统计的。研究发现,现有算法在以下几个方面尚有待改进:(1)这些算法所依据的评分策略,没有充分地考虑词语在类之间和类内文档间的分布特性,要么只是基于传统的TF/IDF,要么只是基于词语在类间的分布特性;(2)现有的N-gram切词算法的效率有待提高;(3)现有算法在选择属性时,没有考虑相互重叠的词串之间的筛选问题;(4)现有算法没有考虑词语的位置对其重要性的影响。针对这些问题,本文改进了N-gram切词算法,并充分考虑词语的分布特性和位置的重要性,准确地处理叠词,提出了新的基于统计的属性选择算法,扩展和改进了现有算法。实验结果表明,本文提出的算法可以有效地提高属性选择的精度,从而改善信息处理的性能。 2.改进了词语间依存关系的定量识别策略。本文扩展和改进了现有的基于统计的词语间依存关系定量识别算法,力图解决现有算法中存在的有待改进的不足之处,提高识别的准确率,从而提高信息处理和自然语言处理等的时空效率和性能。为此,本文作了以下贡献和创新工作:(1)充分考虑词项的概率分布的影响,不仅能够有效地识别出相邻词项之间的依存关系,还可以识别出不相邻词项之间和潜在的依存关系;(2)明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;(3)提出字串匹配模型,以此识别部分词项之间的从属关系;(4)充分考虑两个词项之间相互位置的离散分布和距离的 摘要 影响、以及它们的概率分布特:性,提出词项间的依存强度模型,并据此 构建词语间依存关系树;(5)提出更新策略,对已经建好的依存关系树 进行裁剪,并从己建好的依存关系树中挖掘出不相邻词项之间的依存关 系和潜在的依存关系。应用实验的结果表明,本文提出的算法可以有效 地识别出词语间的依存关系,从而改善信息处理和自然语言处理等的性 育旨。 提出了一种具有增量学习能力、高效的信息分类算法。在模式识别研究 领域,在己有的分类算法中,大多数都是基于向量空间模型的算法,其 中使用范围最广的是kNN算法;,但是,其中的大多数算法都因为计算复杂 度太高,而不适合于大规模的场合,而且,当训练样本集增大时,都需 要重新生成分类器,可扩展性差。本文提出了互依赖和等效半径的概念, 并将两者相结合,提出新的分类算法—基于互依赖和等效半径、易更 新的分类算法SECTILE,SECT工LE计算复杂度较低,而且扩展性能较好, 适用于大规模场合。将SECTILE算法应用于中文文本分类,并与kNN算法 和类中心向量法进行比较,结果表明,在保证不损失分类精度的前提下, SECTILE可以大大提高分类速度,有利于对大规模信息样本进行实时在线 的自动分类。 提出了一种基于子空间的信J息聚类算法。在信息处理研究领域,现有的 大多数聚类算法都需要人为给出一些参数,而且时空效率也有待于进一 步提高。然而,在没有先验知识的情况下,人为确定这些参数是十分困 难的。为了解决这一难题,本文提出了一种实用而且高效的聚类算法, 力图避免需要人为事先确定的参数,同时提高时空效率和信息处理的性 能。此外,本文还从多个角度分析了该算法的性能,并将该算法应用于 中文文本聚类,结果表明,该算法不需要人为确定参数,同时,还提高 了信息处理的时空效率和性能。 提出基于子空间上子主题聚类的信息摘要算法。自动摘要的算法大致可 分为两大类,一类是基于统计的算法,另一类是基于知识理解的算法。 前者与领域无关,但是精度低;后者准确度高,但是应用范围受到领域 限制。鉴于此,本文提出了一种基于主题聚类的自动摘要算法,采用统 计方法的同时,适当结合知识理解,既摆脱了领域限制,又使摘要的结 果更为准确。此外,本文还提出了一种较为客观的、基于任务的摘要性 能评估算法。 本文提出了一种自适应于不同样本的、动态确定摘要长度的策略。随着 信息技术的发展和信息量的大量增多,提出了很多自动摘要的算法。在 彭 摘要 这些众多的算法中,都有一个共同的现象—摘要的长度均需事先给定。 然而,实际的情况是,随着信息样本的不同,该信息样本所包含的信息 量也是不同的。为了能够全面地反映
引用
收藏
页数:185
共 71 条
[1]
中文信息处理开放平台的设计.[A].刘群;张浩;白硕;.第一届学生计算语言学研讨会.2002,
[2]
Concept decompositions for large sparse text data using clustering
[J].
Dhillon, IS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Dhillon, IS
;
Modha, DS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Modha, DS
.
MACHINE LEARNING,
2001,
42
(1-2)
:143
-175
[3]
Lazy learning of Bayesian rules
[J].
Zheng, ZJ
论文数:
0
引用数:
0
h-index:
0
机构:
Deakin Univ, Sch Comp & Math, Geelong, Vic 3217, Australia
Deakin Univ, Sch Comp & Math, Geelong, Vic 3217, Australia
Zheng, ZJ
;
Webb, GI
论文数:
0
引用数:
0
h-index:
0
机构:
Deakin Univ, Sch Comp & Math, Geelong, Vic 3217, Australia
Deakin Univ, Sch Comp & Math, Geelong, Vic 3217, Australia
Webb, GI
.
MACHINE LEARNING,
2000,
41
(01)
:53
-84
[4]
Finding generalized projected clusters in high dimensional spaces
[J].
Aggarwal, CC
论文数:
0
引用数:
0
h-index:
0
机构:
IBM Corp, Thomas J Watson Res Ctr, Yorktown Hts, NY 10598 USA
IBM Corp, Thomas J Watson Res Ctr, Yorktown Hts, NY 10598 USA
Aggarwal, CC
;
Yu, PS
论文数:
0
引用数:
0
h-index:
0
机构:
IBM Corp, Thomas J Watson Res Ctr, Yorktown Hts, NY 10598 USA
IBM Corp, Thomas J Watson Res Ctr, Yorktown Hts, NY 10598 USA
Yu, PS
.
SIGMOD RECORD,
2000,
29
(02)
:70
-81
[5]
BoosTexter: A boosting-based system for text categorization
[J].
Schapire, RE
论文数:
0
引用数:
0
h-index:
0
机构:
AT&T Labs Res, Shannon Lab, Florham Pk, NJ 07932 USA
Schapire, RE
;
Singer, Y
论文数:
0
引用数:
0
h-index:
0
机构:
AT&T Labs Res, Shannon Lab, Florham Pk, NJ 07932 USA
Singer, Y
.
MACHINE LEARNING,
2000,
39
(2-3)
:135
-168
[6]
Data clustering.[J].A. K. Jain;M. N. Murty;P. J. Flynn.ACM Computing Surveys (CSUR).1999, 3
[7]
Families of splitting criteria for classification trees
[J].
Shih, YS
论文数:
0
引用数:
0
h-index:
0
机构:
Natl Chung Cheng Univ, Dept Math, Chiayi 62117, Taiwan
Natl Chung Cheng Univ, Dept Math, Chiayi 62117, Taiwan
Shih, YS
.
STATISTICS AND COMPUTING,
1999,
9
(04)
:309
-315
[8]
Automatic construction of decision trees from data: A multi-disciplinary survey
[J].
Murthy, SK
论文数:
0
引用数:
0
h-index:
0
机构:
Siemens Corp Res, Princeton, NJ 08540 USA
Siemens Corp Res, Princeton, NJ 08540 USA
Murthy, SK
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(04)
:345
-389
[9]
Principal direction divisive partitioning
[J].
论文数:
引用数:
h-index:
机构:
Boley, D
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(04)
:325
-344
[10]
Density-based clustering in spatial databases: The algorithm GDBSCAN and its applications
[J].
Sander, J
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Sander, J
;
Ester, M
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Ester, M
;
论文数:
引用数:
h-index:
机构:
Kriegel, HP
;
Xu, XW
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Xu, XW
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(02)
:169
-194
←
1
2
3
4
5
6
7
8
→
共 71 条
[1]
中文信息处理开放平台的设计.[A].刘群;张浩;白硕;.第一届学生计算语言学研讨会.2002,
[2]
Concept decompositions for large sparse text data using clustering
[J].
Dhillon, IS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Dhillon, IS
;
Modha, DS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Texas, Dept Comp Sci, Austin, TX 78712 USA
Modha, DS
.
MACHINE LEARNING,
2001,
42
(1-2)
:143
-175
[3]
Lazy learning of Bayesian rules
[J].
Zheng, ZJ
论文数:
0
引用数:
0
h-index:
0
机构:
Deakin Univ, Sch Comp & Math, Geelong, Vic 3217, Australia
Deakin Univ, Sch Comp & Math, Geelong, Vic 3217, Australia
Zheng, ZJ
;
Webb, GI
论文数:
0
引用数:
0
h-index:
0
机构:
Deakin Univ, Sch Comp & Math, Geelong, Vic 3217, Australia
Deakin Univ, Sch Comp & Math, Geelong, Vic 3217, Australia
Webb, GI
.
MACHINE LEARNING,
2000,
41
(01)
:53
-84
[4]
Finding generalized projected clusters in high dimensional spaces
[J].
Aggarwal, CC
论文数:
0
引用数:
0
h-index:
0
机构:
IBM Corp, Thomas J Watson Res Ctr, Yorktown Hts, NY 10598 USA
IBM Corp, Thomas J Watson Res Ctr, Yorktown Hts, NY 10598 USA
Aggarwal, CC
;
Yu, PS
论文数:
0
引用数:
0
h-index:
0
机构:
IBM Corp, Thomas J Watson Res Ctr, Yorktown Hts, NY 10598 USA
IBM Corp, Thomas J Watson Res Ctr, Yorktown Hts, NY 10598 USA
Yu, PS
.
SIGMOD RECORD,
2000,
29
(02)
:70
-81
[5]
BoosTexter: A boosting-based system for text categorization
[J].
Schapire, RE
论文数:
0
引用数:
0
h-index:
0
机构:
AT&T Labs Res, Shannon Lab, Florham Pk, NJ 07932 USA
Schapire, RE
;
Singer, Y
论文数:
0
引用数:
0
h-index:
0
机构:
AT&T Labs Res, Shannon Lab, Florham Pk, NJ 07932 USA
Singer, Y
.
MACHINE LEARNING,
2000,
39
(2-3)
:135
-168
[6]
Data clustering.[J].A. K. Jain;M. N. Murty;P. J. Flynn.ACM Computing Surveys (CSUR).1999, 3
[7]
Families of splitting criteria for classification trees
[J].
Shih, YS
论文数:
0
引用数:
0
h-index:
0
机构:
Natl Chung Cheng Univ, Dept Math, Chiayi 62117, Taiwan
Natl Chung Cheng Univ, Dept Math, Chiayi 62117, Taiwan
Shih, YS
.
STATISTICS AND COMPUTING,
1999,
9
(04)
:309
-315
[8]
Automatic construction of decision trees from data: A multi-disciplinary survey
[J].
Murthy, SK
论文数:
0
引用数:
0
h-index:
0
机构:
Siemens Corp Res, Princeton, NJ 08540 USA
Siemens Corp Res, Princeton, NJ 08540 USA
Murthy, SK
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(04)
:345
-389
[9]
Principal direction divisive partitioning
[J].
论文数:
引用数:
h-index:
机构:
Boley, D
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(04)
:325
-344
[10]
Density-based clustering in spatial databases: The algorithm GDBSCAN and its applications
[J].
Sander, J
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Sander, J
;
Ester, M
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Ester, M
;
论文数:
引用数:
h-index:
机构:
Kriegel, HP
;
Xu, XW
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Univ Munich, Inst Comp Sci, D-80538 Munich, Germany
Xu, XW
.
DATA MINING AND KNOWLEDGE DISCOVERY,
1998,
2
(02)
:169
-194
←
1
2
3
4
5
6
7
8
→