一种基于向量空间模型的文本分类方法

被引:30
作者
李雪蕾
张冬茉
机构
[1] 上海交通大学计算机系
[2] 上海交通大学计算机系 上海
[3] 上海
关键词
文本分类; 超文本描述语言; 可分性判据; 层次分类;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。
引用
收藏
页码:90 / 92
页数:3
相关论文
共 7 条
[1]   一种改进的kNN方法及其在文本分类中的应用 [J].
孙丽华 ;
张积东 ;
李静梅 .
应用科技, 2002, (02) :25-27
[2]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[3]   补偿型的Sleeping expert文本分类算法 [J].
解冲锋 ;
李星 .
清华大学学报(自然科学版), 2001, (07) :39-42
[4]   基于K-最近距离的自动文本分类的研究 [J].
孙健 ;
王伟 ;
钟义信 .
北京邮电大学学报, 2001, (01) :42-46
[5]   隐含语义索引及其在中文文本处理中的应用研究 [J].
周水庚 ;
关佶红 ;
胡运发 .
小型微型计算机系统, 2001, (02) :239-243
[6]   一个基于向量空间模型的中文文本自动分类系统 [J].
朱华宇 ;
孙正兴 ;
张福炎 .
计算机工程, 2001, (02) :15-17+63
[7]   独立于语种的文本分类方法 [J].
黄萱菁 ;
吴立德 ;
石崎洋之 ;
徐国伟 .
中文信息学报, 2000, (06) :1-7