基于Hadoop的Web文本分类系统设计研究

被引:10
作者
赵文娟
机构
[1] 山西大学商务学院信息学院
关键词
Web文本分类; Hadoop; HDFS; Mapreduce;
D O I
10.13885/j.issn.0455-2059.2014.06.020
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系统的有效性.
引用
收藏
页码:892 / 896
页数:5
相关论文
共 11 条
[1]
结合聚类思想神经网络文本分类技术研究 [J].
朱云霞 .
计算机应用研究, 2012, 29 (01) :155-157
[2]
一种改进的KNN文本分类 [J].
钟将 ;
刘荣辉 .
计算机工程与应用, 2012, 48 (02) :142-144
[3]
基于粗糙集理论的文本分类算法研究 [J].
林珣 ;
李志蜀 ;
周勇 .
计算机科学, 2011, 38 (11) :239-240+263
[4]
基于朴素贝叶斯分类器的朝鲜语文本分类的研究 [J].
周国强 ;
崔荣一 .
中文信息学报, 2011, (04) :16-19
[5]
一种基于C4.5决策树的Web页面分类算法 [J].
曹薇 ;
张乃洲 .
计算机系统应用, 2010, 19 (10) :195-198
[6]
基于特征选择和最大熵模型的汉语词义消歧 [J].
何径舟 ;
王厚峰 .
软件学报, 2010, 21 (06) :1287-1295
[7]
基于语义向量空间模型的文档检索系统研究 [J].
唐明伟 ;
卞艺杰 ;
陶飞飞 .
情报杂志, 2010, 29 (05) :167-170+177
[8]
支持向量机在文本自动分类中的应用研究.[J].田晓宇;梁静国;.情报学报.2006, 02
[9]
用于Web文本分类的快速KNN算法.[J].王煜;白石;王正欧;.情报学报.2007, 01
[10]
Hadoop平台下基于SVM主动学习的分类算法研究 [D]. 
潘兴江 .
华南理工大学,
2011