基于向量空间模型的文档分类系统

被引:18
作者
黄萱菁
吴立德
机构
[1] 复旦大学计算机科学系
关键词
向量空间模型; 文档分类; 信息检索;
D O I
暂无
中图分类号
TP399 [在其他方面的应用];
学科分类号
摘要
本文介绍了一个建立在向量空间模型上的文档分类系统.该系统着重解决向量维数压缩和中文专有词汇获取等问题.在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇.实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率.
引用
收藏
页码:147 / 153
页数:7
相关论文
共 4 条
[1]   基于机器学习的无需人工编制词典的切词系统 [J].
黄萱菁 ;
吴立德 ;
王文欣 ;
叶丹瑾 .
模式识别与人工智能, 1996, 9 (04) :297-303
[2]   汉语语料的自动分类 [J].
吴军,王作英,禹锋,王侠 .
中文信息学报, 1995, (04) :25-32
[3]  
中国图书馆图书分类法[M]. 书目文献出版社 , 中国图书馆图书分类法编辑委员会编, 1990
[4]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)