中文文本分类系统的研究与实现

被引:0
作者
甘立国
机构
[1] 北京化工大学
关键词
文本分类; 向量空间模型; 特征抽取; 特征项权重;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
随着信息技术的迅速发展,特别是Internet的普及,网页数量呈海量增长。由于网页中的内容大部分是文本信息,因此如何根据网页中的文本信息自动分类成为目前研究的重要课题。文本自动分类是信息检索中的一个重要环节,它是指在给定的分类体系下,根据文本的内容自动判定文本类别的过程,以便于信息的检索。本文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括信息检索模型、中文分词方法、特征抽取、特征项权重方法以及关键的分类算法,分别进行了研究和探索;再次在特征项权重方面,我们分析了传统特征项权重方法的缺点,提出使用句子的重要度对特征项的权重进行加权,实验证明这种方法能有效地反映文本的内容;接下来介绍了基于向量空间模型的中文文本分类系统的总体框架,系统流程和功能模块;最后对分类系统中实现的各种特征抽取算法、权重算法和分类算法分别进行了实验对比。
引用
收藏
页数:61
共 25 条
[1]
支持向量机解决多分类问题研究 [J].
郑勇涛 ;
刘玉树 ;
不详 .
计算机工程与应用 , 2005, (23) :190-192
[2]
一个中文新词识别特征的研究 [J].
秦浩伟 ;
步丰林 .
计算机工程, 2004, (S1) :369-370+414
[3]
信息推拉技术 [J].
王辉 ;
陈凌 ;
张丽娟 .
情报科学, 2004, (12) :1440-1443
[4]
基于向量空间模型的贝叶斯文本分类方法 [J].
胡于进 ;
周小玲 ;
凌玲 ;
王学林 .
计算机与数字工程, 2004, (06) :28-30+77
[5]
基于因特网的网络信息资源个性化服务研究 [J].
徐险峰 .
图书馆建设, 2004, (05) :62-64
[6]
搜索引擎技术的现状与展望 [J].
王玲 ;
马文庆 ;
不详 .
现代情报 , 2004, (08) :71-72
[7]
中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[8]
Web中文文本分词技术研究 [J].
马玉春 ;
宋瀚涛 .
计算机应用, 2004, (04) :134-135+155
[9]
基于kNN的快速WEB文档分类 [J].
李杨 ;
曾海泉 ;
刘庆华 ;
胡运发 .
小型微型计算机系统, 2004, (04) :725-729
[10]
基于隐含语义的kNN文本分类研究 [J].
李永平 ;
程莉 ;
叶卫国 .
计算机工程与应用, 2004, (06) :71-73