文本挖掘方法探讨及应用

被引:0
作者
郭飞
机构
[1] 成都理工大学
关键词
文本挖掘; 文本分类; 特征提取; 改进互信息; 朴素贝叶斯;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
随着Internet的大规模普及和企业信息化程度的提高,因此如何自动处理 这些海量联机文本成为目前重要的研究课题。文本挖掘(Text Mining)技术就可 以快速、有效的从海量的数据中提取出对用户有用的信息,而文本分类是文本 挖掘中最重要和应用最广的一项技术。 本文首先介绍了文本挖掘的一些基本概念和文本挖掘的相关知识背景,各 种理论和方法。对文本挖掘所涉及的关键技术,包括文本表示模型、特征提取、 评估方法和常用方法进行了详细的理论阐述和算法描述。并着重对特征提取和 朴素贝叶斯分类算法进行了详细的介绍。 然后本文提出并实现了一种改进互信息的特征提取和支持朴素贝叶斯的文 本分类系统,介绍了系统实现中主要过程和一些主要的技术问题。 最后,对改进互信息的特征提取和朴素贝叶斯的文本分类系统进行试验, 结果表明本算法和系统具有较高的分类准确率。
引用
收藏
页数:51
共 23 条
[1]
An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[2]
基于矢量空间模型的文本自动分类系统研究 [J].
包剑 ;
冀常鹏 ;
李义杰 .
计算机系统应用, 2005, (03) :47-49
[3]
文本挖掘探析 [J].
吴欣明 ;
李春伟 .
廊坊师范学院学报, 2004, (04) :54-56
[4]
基于VSM的中文文本分类系统的设计与实现 [J].
张东礼 ;
汪东升 ;
郑纬民 .
清华大学学报(自然科学版), 2003, (09) :1288-1291
[5]
基于贝叶斯网络的分类器研究 [J].
周颜军 ;
王双成 ;
王辉 .
东北师大学报(自然科学版), 2003, (02) :21-27
[6]
一种文本处理中的朴素贝叶斯分类器 [J].
李静梅 ;
孙丽华 ;
张巧荣 ;
张春生 .
哈尔滨工程大学学报, 2003, (01) :71-74
[7]
基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[8]
中文文本中抽取特征信息的区域与技术 [J].
刘开瑛 ;
薛翠芳 ;
郑家恒 ;
周晓强 ;
不详 .
中文信息学报 , 1998, (02)
[9]
贝叶斯分类器研究及其在Web文档分类中的应用 [D]. 
侯小静 .
郑州大学,
2005
[10]
基于无监督聚类和朴素贝叶斯分类的文本分类方法研究 [D]. 
祝翠玲 .
山东大学,
2005