一种基于向量夹角的k近邻多标记文本分类算法

被引:18
作者
广凯
潘金贵
机构
[1] 南京大学计算机软件新技术国家重点实验室
关键词
机器学习; 多标记学习; 文本分类;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
140502 [人工智能];
摘要
在多标记学习中,一个示例可以有多个概念标记。学习系统的目标是通过对由多标记样本组成的训练集进行学习,以尽可能正确地预测未知样本所对应的概念标记集。k近邻算法已被应用到多标记学习中,该算法将测试示例转化为多维向量,根据其k个近邻样本的标记向量来确定该测试示例的标记向量。传统的k近邻算法是基于向量的空间距离来选取近邻,而在自然语言处理中,文本间的相似度常用文本向量的夹角来表示,所以本文将文本向量间的夹角关系作为选取k近邻的标准并结合k近邻算法提出了一种多标记文本学习算法。实验表明,该算法在文档分类的准确率上体现出较好的性能。
引用
收藏
页码:205 / 206+297 +297
页数:3
相关论文
共 1 条
[1]
BoosTexter: A boosting-based system for text categorization [J].
Schapire, RE ;
Singer, Y .
MACHINE LEARNING, 2000, 39 (2-3) :135-168