基于概念的文本自动分类研究

被引:0
作者
苏伟峰
机构
[1] 厦门大学
关键词
文本分类; 文本表示; kNN; 知网; 召回率; 精确率; 义原; 可分义原; 向量空间; 向量;
D O I
暂无
年度学位
2002
学位类型
硕士
导师
摘要
随着因特网的迅猛发展,大量的信息朝着人们扑面而来,如何管理好所得到的信息的问题变得越来越突出,对文本进行分类管理是人们经常采用的一种文件管理方法。 本文提出了一个基于概念的自然语言文本自动分类模型,该模型以《知网》为主要的概念知识源,以词所表示的概念为分类基础,把概念继续分解至义原,并在可分义原组成的向量空间进行文本分类。该模型概述如下:文本分类系统分为训练模块和分类模块,义原分为可分义原和不可分义原,文本在经过预处理后,按一定规则提取出关键词,对有岐义的关键词,根据其词性和上下文对对其进行概念排岐,根据关键词所表示的概念在《知网》中的定义,把关键词分解成义原,并将不可分义原剔除,从而把文本表示成可分义原向量空间中的一个向量。在训练集中的文本均表示成向量空间的文本之后,训练集中相似的向量在向量空间中会形成文本聚类。对于将要进行分类的文本,亦按上述的方法将其表示为一向量,并在训练集中找出k个与其距离最近的邻居的类别作为该文本的类别。实验表明,该模型相对于基于关键词的文本分类方法有更好的召回率和精确率,进行分类时所需的空间较少,计算时间也相对较短。 本文在三个方面提出了新的思想:第一,首先提出把义原分类为可分义原和不可分义原,并提出分类的原则和方法。这种分类方式可以实现在进行文本分类时,获取概念中最重要的领域特性。第二,虽然现有文献提出用概念来表示文本,但这种概念的表示方式都基于同义词的,把概念分解到义原更能反映出概念的本质和概念之间的相关性,采用义原来表示文本则更反映出文本所要表达的中心意思。第三,首先把概念排岐引入到文本分类中,并提出一种新的概念排岐算法。
引用
收藏
页数:56
共 10 条
[1]
BoosTexter: A boosting-based system for text categorization [J].
Schapire, RE ;
Singer, Y .
MACHINE LEARNING, 2000, 39 (2-3) :135-168
[2]
A method for disambiguating word senses in a large corpus.[J].William A. Gale;Kenneth W. Church;David Yarowsky.Computers and the Humanities.1992, 5
[3]
一个基于概念的中文文本分类模型 [J].
苏伟峰 ;
李绍滋 ;
李堂秋 .
计算机工程与应用, 2002, (06) :193-195
[4]
一个无需词典支持和切词处理的中文文档分类系统 [J].
周水庚 ;
关佶红 ;
胡运发 ;
周傲英 .
计算机研究与发展, 2001, (07) :839-844
[5]
基于Ngram信息的中文文档分类研究 [J].
周水庚 ;
关佶红 ;
俞红奇 ;
胡运发 .
中文信息学报, 2001, (01) :34-39
[6]
独立于语种的文本分类方法 [J].
黄萱菁 ;
吴立德 ;
石崎洋之 ;
徐国伟 .
中文信息学报, 2000, (06) :1-7
[7]
基于WWW的文本信息挖掘 [J].
邹涛 ;
黄源 ;
张福炎 .
情报学报, 1999, (04) :289-293
[8]
中文文本的关键词自动抽取和模糊分类 [J].
何新贵 ;
彭甫阳 .
中文信息学报, 1999, (01)
[9]
中文文本中抽取特征信息的区域与技术 [J].
刘开瑛 ;
薛翠芳 ;
郑家恒 ;
周晓强 ;
不详 .
中文信息学报 , 1998, (02)
[10]
汉语语料的自动分类 [J].
吴军 ;
王作英 ;
禹锋 ;
王侠 .
中文信息学报, 1995, (04)