基于统计方法的中文文本自动分类研究

被引:0
作者
骆昌日
机构
[1] 华中师范大学
关键词
中心向量法,文本自动分类,向量空间模型,统计方法;
D O I
暂无
年度学位
2004
学位类型
硕士
导师
摘要
随着信息技术的发展,人们已经从信息缺乏的时代过渡到信息极为丰富的数字化的时代。如何从这些海量信息中迅速有效地获得所需信息也就成为一项很重要的研究课题。为此目的,文本自动分类被研究者提出并进行了应用研究。研究文本自动分类具有重要意义,它可以大大的缩短了对资料的整理时间,为信息检索提供方便,有利于现实文档的存档管理。 本文主要是应用统计的方法对文本自动分类进行理论和实践的探讨。我们的工作主要从以下方面进行: 1.探讨了基于统计方法的文本自动分类的定义、常用模型和常用算法。 2.讨论了文本自动分类器一般方法、步骤及有关技术细节。 3.在向量空间模型下,实现了向量距离加权算法、代表向量算法、中心向量算法构造的三种分类器。对三种分类器分别以字、词为特征进行分类测试、分析发现:①使用相同的分类算法,用词作为特征项,比以字作为特征的分类效果好;②用不同的算法构造分类器对分类效果的影响很大,如中心向量算法在字、词特征下的分类效果优于其他两算法;在以字为特征的情况下,该算法的平均查全率80.73%,平均查准率82.94%;在以词为特征的情况下,该算法的平均查全率83.6%,平均查准率85.97%;③选用语料不同对分类效果也有影响,如用新浪网(www.sina.com.cn)网页语料进行测试,使用中心向量法分类器和词作为特征的情况下,平均准确率为89.31%,平均查全率为88.33%。 4.基于改进后的中心向量法重构自动分类器,测试取得了开放测试平均查全率90.35%、平均准确率90.87%和封闭测试平均查全率98.36%、平均准确率98.74%的分类效果,说明改进后的算法适合中文文本分类。 本文所得到的这些实验数据对于开发实际的文本分类系统具有指导意义。该研究可应用于网络信息检索、信息过滤、中文文本自动分类、中文网页自动分类等应用领域。
引用
收藏
页数:60
共 24 条
[1]
Hidden markov models for text categorization in multi-page documents [J].
Frasconi, P ;
Soda, G ;
Vullo, A .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2002, 18 (2-3) :195-217
[2]
SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297
[3]
规则分类在文本自动分类中的应用.[A].孙丽华;王洪俊;肖诗斌;施水才;.20th International Conference on Computer Processing of Oriental Languages.2003,
[4]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[5]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[6]
关于“中文网页自动分类竞赛”结果的分析 [J].
冯是聪 ;
王继民 .
中文信息学报, 2003, (05) :34-40
[7]
文本分类实现技术 [J].
王灏 ;
黄厚宽 ;
田盛丰 .
广西师范大学学报(自然科学版), 2003, (01) :173-179
[8]
一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24
[9]
基于FIFA算法的文本分类 [J].
朱靖波 ;
姚天顺 .
中文信息学报, 2002, (03) :20-26
[10]
一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26