基于Web的新闻文本分类技术的研究

被引:7
作者
胡凌云 [1 ,2 ]
胡桂兰 [2 ]
徐勇 [3 ]
李龙澍 [1 ]
机构
[1] 安徽大学计算机科学与技术学院
[2] 安徽财经大学管理科学与工程学院
[3] 电子工程学院训练部
关键词
网页解析; 文本; 分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.
引用
收藏
页码:66 / 70
页数:5
相关论文
共 9 条
[1]   基于网页分块的正文信息提取方法 [J].
黄玲 ;
陈龙 .
计算机应用, 2008, 28(S2) (S2) :326-328
[2]   KNN和SVM算法在中文文本自动分类技术上的比较研究 [J].
马建斌 ;
李滢 ;
滕桂法 ;
王芳 ;
赵洋 .
河北农业大学学报, 2008, (03) :120-123
[3]   一种基于分类算法的网页信息提取方法 [J].
汪建伟 ;
杨冬青 ;
高军 ;
王腾蛟 .
计算机科学, 2008, (03) :91-93
[4]   面向搜索引擎的文本自动分类系统实现 [J].
许璐蕾 .
苏州市职业大学学报, 2007, (04) :79-81
[5]   WWW论坛中的动态网页采集 [J].
李魁 ;
程学旗 ;
郭岩 ;
张凯 .
计算机工程, 2007, (06) :80-82
[6]   基于网页分块的个性化信息采集的研究与设计 [J].
吕铁强 ;
于满泉 ;
孟庆发 ;
周立德 .
微电子学与计算机, 2005, (10) :120-123
[7]   互联网中XML网页的链接解析与信息采集 [J].
杜义华 ;
焦文彬 .
计算机系统应用, 2005, (07) :24-26
[8]   基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792
[9]  
Web文本信息抽取与挖掘方法[J]. 许建潮,王颖楠,胥桂仙.长春工业大学学报(自然科学版). 2002(S1)