基于概念的文本自动分类研究

被引：0

作者：

苏伟峰

机构：

[1] 厦门大学

关键词：

文本分类; 文本表示; kNN; 知网; 召回率; 精确率; 义原; 可分义原; 向量空间; 向量;

D O I：

暂无

年度学位：

2002

学位类型：

硕士

导师：

李绍滋;

摘要：

随着因特网的迅猛发展，大量的信息朝着人们扑面而来，如何管理好所得到的信息的问题变得越来越突出，对文本进行分类管理是人们经常采用的一种文件管理方法。本文提出了一个基于概念的自然语言文本自动分类模型，该模型以《知网》为主要的概念知识源，以词所表示的概念为分类基础，把概念继续分解至义原，并在可分义原组成的向量空间进行文本分类。该模型概述如下：文本分类系统分为训练模块和分类模块，义原分为可分义原和不可分义原，文本在经过预处理后，按一定规则提取出关键词，对有岐义的关键词，根据其词性和上下文对对其进行概念排岐，根据关键词所表示的概念在《知网》中的定义，把关键词分解成义原，并将不可分义原剔除，从而把文本表示成可分义原向量空间中的一个向量。在训练集中的文本均表示成向量空间的文本之后，训练集中相似的向量在向量空间中会形成文本聚类。对于将要进行分类的文本，亦按上述的方法将其表示为一向量，并在训练集中找出k个与其距离最近的邻居的类别作为该文本的类别。实验表明，该模型相对于基于关键词的文本分类方法有更好的召回率和精确率，进行分类时所需的空间较少，计算时间也相对较短。本文在三个方面提出了新的思想：第一，首先提出把义原分类为可分义原和不可分义原，并提出分类的原则和方法。这种分类方式可以实现在进行文本分类时，获取概念中最重要的领域特性。第二，虽然现有文献提出用概念来表示文本，但这种概念的表示方式都基于同义词的，把概念分解到义原更能反映出概念的本质和概念之间的相关性，采用义原来表示文本则更反映出文本所要表达的中心意思。第三，首先把概念排岐引入到文本分类中，并提出一种新的概念排岐算法。

引用

页数：56

共 10 条

[1]

BoosTexter: A boosting-based system for text categorization [J].