学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于Hadoop的Web文本分类系统设计研究
被引:10
作者
:
赵文娟
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学商务学院信息学院
赵文娟
机构
:
[1]
山西大学商务学院信息学院
来源
:
兰州大学学报(自然科学版)
|
2014年
/ 50卷
/ 06期
关键词
:
Web文本分类;
Hadoop;
HDFS;
Mapreduce;
D O I
:
10.13885/j.issn.0455-2059.2014.06.020
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块.真实数据集上的比较实验表明所建系统的有效性.
引用
收藏
页码:892 / 896
页数:5
相关论文
共 11 条
[1]
结合聚类思想神经网络文本分类技术研究
[J].
朱云霞
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学信息管理系
南京人口管理干部学院信息科学系
南京大学信息管理系
朱云霞
.
计算机应用研究,
2012,
29
(01)
:155
-157
[2]
一种改进的KNN文本分类
[J].
论文数:
引用数:
h-index:
机构:
钟将
;
刘荣辉
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
刘荣辉
.
计算机工程与应用,
2012,
48
(02)
:142
-144
[3]
基于粗糙集理论的文本分类算法研究
[J].
论文数:
引用数:
h-index:
机构:
林珣
;
论文数:
引用数:
h-index:
机构:
李志蜀
;
周勇
论文数:
0
引用数:
0
h-index:
0
机构:
华兴职业技术学院
西南财经大学经济信息工程学院
周勇
.
计算机科学,
2011,
38
(11)
:239
-240+263
[4]
基于朴素贝叶斯分类器的朝鲜语文本分类的研究
[J].
周国强
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学计算机科学与技术学科智能信息处理研究室
周国强
;
论文数:
引用数:
h-index:
机构:
崔荣一
.
中文信息学报,
2011,
(04)
:16
-19
[5]
一种基于C4.5决策树的Web页面分类算法
[J].
论文数:
引用数:
h-index:
机构:
曹薇
;
张乃洲
论文数:
0
引用数:
0
h-index:
0
机构:
湖北大学知行学院
武汉职业技术学院计算机学院
张乃洲
.
计算机系统应用,
2010,
19
(10)
:195
-198
[6]
基于特征选择和最大熵模型的汉语词义消歧
[J].
论文数:
引用数:
h-index:
机构:
何径舟
;
论文数:
引用数:
h-index:
机构:
王厚峰
.
软件学报,
2010,
21
(06)
:1287
-1295
[7]
基于语义向量空间模型的文档检索系统研究
[J].
论文数:
引用数:
h-index:
机构:
唐明伟
;
论文数:
引用数:
h-index:
机构:
卞艺杰
;
论文数:
引用数:
h-index:
机构:
陶飞飞
.
情报杂志,
2010,
29
(05)
:167
-170+177
[8]
支持向量机在文本自动分类中的应用研究.[J].田晓宇;梁静国;.情报学报.2006, 02
[9]
用于Web文本分类的快速KNN算法.[J].王煜;白石;王正欧;.情报学报.2007, 01
[10]
Hadoop平台下基于SVM主动学习的分类算法研究
[D].
论文数:
引用数:
h-index:
机构:
潘兴江
.
华南理工大学,
2011
←
1
2
→
共 11 条
[1]
结合聚类思想神经网络文本分类技术研究
[J].
朱云霞
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学信息管理系
南京人口管理干部学院信息科学系
南京大学信息管理系
朱云霞
.
计算机应用研究,
2012,
29
(01)
:155
-157
[2]
一种改进的KNN文本分类
[J].
论文数:
引用数:
h-index:
机构:
钟将
;
刘荣辉
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
刘荣辉
.
计算机工程与应用,
2012,
48
(02)
:142
-144
[3]
基于粗糙集理论的文本分类算法研究
[J].
论文数:
引用数:
h-index:
机构:
林珣
;
论文数:
引用数:
h-index:
机构:
李志蜀
;
周勇
论文数:
0
引用数:
0
h-index:
0
机构:
华兴职业技术学院
西南财经大学经济信息工程学院
周勇
.
计算机科学,
2011,
38
(11)
:239
-240+263
[4]
基于朴素贝叶斯分类器的朝鲜语文本分类的研究
[J].
周国强
论文数:
0
引用数:
0
h-index:
0
机构:
延边大学计算机科学与技术学科智能信息处理研究室
周国强
;
论文数:
引用数:
h-index:
机构:
崔荣一
.
中文信息学报,
2011,
(04)
:16
-19
[5]
一种基于C4.5决策树的Web页面分类算法
[J].
论文数:
引用数:
h-index:
机构:
曹薇
;
张乃洲
论文数:
0
引用数:
0
h-index:
0
机构:
湖北大学知行学院
武汉职业技术学院计算机学院
张乃洲
.
计算机系统应用,
2010,
19
(10)
:195
-198
[6]
基于特征选择和最大熵模型的汉语词义消歧
[J].
论文数:
引用数:
h-index:
机构:
何径舟
;
论文数:
引用数:
h-index:
机构:
王厚峰
.
软件学报,
2010,
21
(06)
:1287
-1295
[7]
基于语义向量空间模型的文档检索系统研究
[J].
论文数:
引用数:
h-index:
机构:
唐明伟
;
论文数:
引用数:
h-index:
机构:
卞艺杰
;
论文数:
引用数:
h-index:
机构:
陶飞飞
.
情报杂志,
2010,
29
(05)
:167
-170+177
[8]
支持向量机在文本自动分类中的应用研究.[J].田晓宇;梁静国;.情报学报.2006, 02
[9]
用于Web文本分类的快速KNN算法.[J].王煜;白石;王正欧;.情报学报.2007, 01
[10]
Hadoop平台下基于SVM主动学习的分类算法研究
[D].
论文数:
引用数:
h-index:
机构:
潘兴江
.
华南理工大学,
2011
←
1
2
→