基于概念的短文本分类

被引：0

作者：

蔡志威

机构：

[1] 华南理工大学

关键词：

短文本分类; 概念识别; 主动学习;

D O I：

暂无

年度学位：

2016

学位类型：

硕士

导师：

闵华清;

摘要：

随着微型博客和各类用户评论等短文本数据在互联网范围内的大量出现,大量信息和资源蕴含在短文本数据中,如何充分管理和利用这些信息资源,以及帮助人们快速从中找到自己所需要的内容,已经成为信息处理技术的一大挑战。文本分类技术成为处理和组织海量文档数据的关键技术。目前,对于文本分类处理方法大多是针对长文本分类出的。不同于长文本,短文本具有关键词特征稀疏、语境不完整和语义信息模糊的特点,使得传统的文本分类方法在短文本处理时难以得到令人满意的准确度。短文本分类问题里,由于短文本通常表达精略,信息不充分,给文本分类带来困难,而通过一些现有的知识库能引入信息加强文本的分类效果。维基百科是现在最大人工编辑的高质量知识库,如果能充分利用维基百科的信息引入短文本中帮助短文本的分类,肯定能给短文本分类带来帮助。本文出一种新的基于维基百科概念的短文本表示方法,通过将短文本中到的维基百科的概念识别出来,再将维基中概念的相关关系和信息扩展到短文本的特征向量表示中。另一方面,短文本分类作为一个有监督学习的过程,需要大量预先人工标记好类别的样本作为训练集,这个过程是需要比较大的人工或者经济成本。在传统的有监督学习问题里,主动学习领域是专门研究通过选择其中最能升分类准确度的样本来减少人工标记样本量,而主动学习中最流行的方法不确定性采样应用于短文本时容易选择到离群点样本,整体效果不好。本文中出一个基于短文本的Top-k代表程度的选择样本目标,由于这个目标的求解是一个NP-Hard难题,本文还出了一个贪心算法来求解这个目标的近似值。实验表明,本文出的选择训练样本的方法优于本文中的对照方法,可以大大减少短文本分类问题人工标记的工作量。

引用

页数：64

共 8 条

[1]

Language independent semantic kernels for short-text classification [J].