网络文本分类技术研究

被引:0
作者
易路杰
机构
[1] 北方工业大学
关键词
网页文本提取; 中文分词; 特征提取; 文本分类;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
如今,由于网络技术的发展,使得互联网已成为人们获取信息的主要资源库。但网络的开放性使得网络中充满了各式各样的信息。为了使人们能够迅速从网络中获取到自己感兴趣的信息,如何使用网络文本分类技术来处理杂乱的网络信息,让这些信息资源变得有序,开始变得越来越重要。网络文本分类技术是信息过滤、搜索引擎等领域的基础,因此网络文本分类技术已逐步成为当今的研究热点。 本文首先介绍了网络文本提取技术和文本分类的相关理论,如:HTML语言、中文分词、相似度计算、权重值计算、特征提取以及常用的文本分类方法。并且介绍了根据这些基本的理论方法,设计并实现了网络文本分类系统。 本文主要进行了以下几方面的研究:在对网络文本提取部分,通过对HTML语言特点和一般网页结构的分析设计实现了网页的文本提取。在文本分类部分中,主要详细分析了KNN文本分类算法和朴素贝叶斯文本分类算法,并通过文本分类的算法实现对文本的领域分类。在对朴素贝叶斯分类方法分析的基础上,针对该方法的独立性假设的问题,采用了贝叶斯网络TAN模型对贝叶斯分类方法进行了改进,考虑了两词间的关系,一定程度上放宽了独立性假设。提出了文本态度判断的方法,通过针对文本情感特征词提取,对情感词进行权值分析,评估文本态度,从而判断出文本的态度实现对文本的二层分类。最后对网络文本分类系统测试,通过使用语料库文本的实验测试,证明该系统有一定的准确性,通过提取网页的文本内容对分类系统进行实验测试,证明该系统有一定的实用性。
引用
收藏
页数:66
共 31 条
[1]
文本分类及其相关技术研究 [D]. 
李荣陆 .
复旦大学,
2005
[2]
INDEXING BY LATENT SEMANTIC ANALYSIS [J].
DEERWESTER, S ;
DUMAIS, ST ;
FURNAS, GW ;
LANDAUER, TK ;
HARSHMAN, R .
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE, 1990, 41 (06) :391-407
[3]
INTELLIGENT INFORMATION-SHARING SYSTEMS [J].
MALONE, TW ;
GRANT, KR ;
TURBAK, FA ;
BROBST, SA ;
COHEN, MD .
COMMUNICATIONS OF THE ACM, 1987, 30 (05) :390-402
[4]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[5]
THE AUTOMATIC CREATION OF LITERATURE ABSTRACTS [J].
LUHN, HP .
IBM JOURNAL OF RESEARCH AND DEVELOPMENT, 1958, 2 (02) :159-165
[6]
文本分类性能评价研究 [J].
奉国和 .
情报杂志, 2011, 30 (08) :66-70
[7]
贝叶斯算法实现文本分类器 [J].
王洋 ;
刘忠 .
大众科技, 2011, (02) :18-20
[8]
蚁群算法在KNN文本分类中的应用 [J].
殷宏威 ;
赵伟 ;
杨志伟 .
长春理工大学学报(自然科学版), 2010, 33 (01) :159-163
[9]
Web网页信息文本分类的研究 [J].
李净 ;
袁小华 ;
沈晓晶 .
计算机工程与设计, 2008, (23) :6026-6028
[10]
一种有效的特征权重计算方法 [J].
孙挺 ;
耿国华 ;
周明全 .
郑州大学学报(理学版), 2008, 40 (04) :48-51