网络数据智能提取

被引：1

作者：

王斌

机构：

[1] 武汉大学计算机学院湖北武汉

来源：

计算机仿真 | 2004年 / 01期

关键词：

树型化; 知识获取; 数据挖掘;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

HTML是当前编写网页使用的最多的语言 ,如何利用HTML这种标记性语言的特点 ,让计算机提供给用户快速获取知识的途径成为许多计算机工作者的一大难题。该文介绍一个有效的从互联网上提取知识的方法供参考。把这种方法简单的分成 4个途径。①规范化基于HTML的网页脚本 ;②将网页结构和内容用一棵内容树表示 ;③比较相似网页的内容树生成提取规则 ;④将规则和下载程序结合得到最终的知识获取软件。

引用

页码：84 / 86

页数：3