一种基于决策树的新闻内容抽取方法

被引：2

作者：

胡俊坤

王浩

杨静

机构：

[1] 合肥工业大学计算机与信息学院

来源：

合肥工业大学学报(自然科学版) | 2009年 / 32卷 / 06期

基金：

安徽省自然科学基金;

关键词：

机器学习; 特征抽取; 决策树; 新闻内容抽取;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

文章提出了一种针对中文新闻网站的新闻内容抽取方法,该方法使用特征向量抽取和决策树学习算法来建立新闻网页节点分类模型,并把模型根据不同的网站进行分类,构建一个模型库。当输入一个新闻网页url时,先通过url判断是哪个新闻网站,再从模型库中选择相应的节点分类模型,如果没有对应的模型就使用通用的节点分类模型对其进行抽取,实验证明这种方法可以达到很好的效果。

引用

页码：774 / 777

页数：4

共 6 条

[1] 基于关键词聚类和节点距离的网页信息抽取 [J].

邓健爽 ;

郑启伦 ;

彭宏 ;

林旭东 .

计算机科学, 2007, (04) :213-216

[2] 基于分块的网页信息解析器的研究与设计 [J].

于满泉 ;

陈铁睿 ;

许洪波 .

计算机应用, 2005, (04) :974-976

[3] 基于统计的网页正文信息抽取方法的研究 [J].

孙承杰 ;

关毅 .

中文信息学报, 2004, (05) :17-22

[4] 一种提高中文搜索引擎检索质量的HTML解析方法 [J].

宋睿华 ;

马少平 ;

陈刚 ;

李景阳 .

中文信息学报, 2003, (04) :19-26

[5] 基于DOM的Web信息提取 [J].

李效东 ;

顾毓清 .

计算机学报, 2002, (05) :526-533

[6]

Towards automatic data ex-traction from large Web site .2 CRESCENZI V,ROADRUNNER G M. Proc of the 26th International Con-ference on Very Large Database Systems . 2001

← 1 →