学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于Web的新闻文本分类技术的研究
被引:7
作者
:
论文数:
引用数:
h-index:
机构:
胡凌云
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
胡桂兰
[
2
]
徐勇
论文数:
0
引用数:
0
h-index:
0
机构:
电子工程学院训练部
安徽大学计算机科学与技术学院
徐勇
[
3
]
论文数:
引用数:
h-index:
机构:
李龙澍
[
1
]
机构
:
[1]
安徽大学计算机科学与技术学院
[2]
安徽财经大学管理科学与工程学院
[3]
电子工程学院训练部
来源
:
安徽大学学报(自然科学版)
|
2010年
/ 34卷
/ 06期
关键词
:
网页解析;
文本;
分类;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.
引用
收藏
页码:66 / 70
页数:5
相关论文
共 9 条
[1]
基于网页分块的正文信息提取方法
[J].
论文数:
引用数:
h-index:
机构:
黄玲
;
陈龙
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
陈龙
.
计算机应用,
2008,
28(S2)
(S2)
:326
-328
[2]
KNN和SVM算法在中文文本自动分类技术上的比较研究
[J].
马建斌
论文数:
0
引用数:
0
h-index:
0
机构:
河北农业大学信息科学与技术学院
河北农业大学信息科学与技术学院
马建斌
;
论文数:
引用数:
h-index:
机构:
李滢
;
论文数:
引用数:
h-index:
机构:
滕桂法
;
论文数:
引用数:
h-index:
机构:
王芳
;
论文数:
引用数:
h-index:
机构:
赵洋
.
河北农业大学学报,
2008,
(03)
:120
-123
[3]
一种基于分类算法的网页信息提取方法
[J].
汪建伟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院
汪建伟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
论文数:
引用数:
h-index:
机构:
高军
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院
王腾蛟
.
计算机科学,
2008,
(03)
:91
-93
[4]
面向搜索引擎的文本自动分类系统实现
[J].
论文数:
引用数:
h-index:
机构:
许璐蕾
.
苏州市职业大学学报,
2007,
(04)
:79
-81
[5]
WWW论坛中的动态网页采集
[J].
李魁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
李魁
;
论文数:
引用数:
h-index:
机构:
程学旗
;
郭岩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郭岩
;
张凯
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张凯
.
计算机工程,
2007,
(06)
:80
-82
[6]
基于网页分块的个性化信息采集的研究与设计
[J].
吕铁强
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
吕铁强
;
于满泉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
于满泉
;
孟庆发
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
孟庆发
;
周立德
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
周立德
.
微电子学与计算机,
2005,
(10)
:120
-123
[7]
互联网中XML网页的链接解析与信息采集
[J].
论文数:
引用数:
h-index:
机构:
杜义华
;
论文数:
引用数:
h-index:
机构:
焦文彬
.
计算机系统应用,
2005,
(07)
:24
-26
[8]
基于DOM的网页主题信息自动提取
[J].
王琦
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
王琦
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
杨冬青
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
王腾蛟
.
计算机研究与发展,
2004,
(10)
:1786
-1792
[9]
Web文本信息抽取与挖掘方法[J]. 许建潮,王颖楠,胥桂仙.长春工业大学学报(自然科学版). 2002(S1)
←
1
→
共 9 条
[1]
基于网页分块的正文信息提取方法
[J].
论文数:
引用数:
h-index:
机构:
黄玲
;
陈龙
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
陈龙
.
计算机应用,
2008,
28(S2)
(S2)
:326
-328
[2]
KNN和SVM算法在中文文本自动分类技术上的比较研究
[J].
马建斌
论文数:
0
引用数:
0
h-index:
0
机构:
河北农业大学信息科学与技术学院
河北农业大学信息科学与技术学院
马建斌
;
论文数:
引用数:
h-index:
机构:
李滢
;
论文数:
引用数:
h-index:
机构:
滕桂法
;
论文数:
引用数:
h-index:
机构:
王芳
;
论文数:
引用数:
h-index:
机构:
赵洋
.
河北农业大学学报,
2008,
(03)
:120
-123
[3]
一种基于分类算法的网页信息提取方法
[J].
汪建伟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院
汪建伟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
论文数:
引用数:
h-index:
机构:
高军
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院
王腾蛟
.
计算机科学,
2008,
(03)
:91
-93
[4]
面向搜索引擎的文本自动分类系统实现
[J].
论文数:
引用数:
h-index:
机构:
许璐蕾
.
苏州市职业大学学报,
2007,
(04)
:79
-81
[5]
WWW论坛中的动态网页采集
[J].
李魁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
李魁
;
论文数:
引用数:
h-index:
机构:
程学旗
;
郭岩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郭岩
;
张凯
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张凯
.
计算机工程,
2007,
(06)
:80
-82
[6]
基于网页分块的个性化信息采集的研究与设计
[J].
吕铁强
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
吕铁强
;
于满泉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
于满泉
;
孟庆发
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
孟庆发
;
周立德
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件研究室
周立德
.
微电子学与计算机,
2005,
(10)
:120
-123
[7]
互联网中XML网页的链接解析与信息采集
[J].
论文数:
引用数:
h-index:
机构:
杜义华
;
论文数:
引用数:
h-index:
机构:
焦文彬
.
计算机系统应用,
2005,
(07)
:24
-26
[8]
基于DOM的网页主题信息自动提取
[J].
王琦
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
王琦
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
杨冬青
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
王腾蛟
.
计算机研究与发展,
2004,
(10)
:1786
-1792
[9]
Web文本信息抽取与挖掘方法[J]. 许建潮,王颖楠,胥桂仙.长春工业大学学报(自然科学版). 2002(S1)
←
1
→