低质量数据下的知识获取方案研究

被引:2
作者
李兴森 [1 ]
石勇 [2 ]
鹿盟 [1 ]
申爱华 [1 ]
机构
[1] 中国科学院研究生院管理学院
[2] 中国科学院数据技术与知识经济研究中心
关键词
数据质量; 数据挖掘; 知识管理; 可拓学; 数据挖掘咨询; 企业信息化;
D O I
10.13253/j.cnki.ddjjgl.2007.03.020
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据挖掘已经成为重要的知识来源。随着信息化的深入,企业对数据挖掘有了较大的需求,但数据质量差往往会造成数据挖掘的结论可信度低,从而影响了数据挖掘的应用。本文以可拓学方法,通过系统分析产生脏数据的原因,提出了基于学科链方法的数据清洗方案。通过数据挖掘手段发现数据质量差距,追溯到软件设计、实施、维护等上游环节,提出从来源环节解决问题的系统方法,并提出通过数据挖掘应用咨询促使数据质量改进的措施,从而降低数据清洗的工作量,使数据质量不高的企业也可以实施数据挖掘项目,获取决策支持所需的知识。
引用
收藏
页码:78 / 83
页数:6
相关论文
共 16 条
[1]   基于可拓集的企业数据挖掘应用方案初探 [J].
李兴森 ;
石勇 ;
李爱华 .
哈尔滨工业大学学报, 2006, (07) :1124-1128
[2]   基于聚类分析技术的数据清洗研究 [J].
刘芳 ;
何飞 .
计算机工程与科学, 2005, (06) :70-71+77
[3]   数据质量管理与企业信息化建设 [J].
朱如 ;
李庆峰 .
计算机时代, 2005, (06) :31-33
[4]   基于数据挖掘的电力负荷脏数据动态智能清洗 [J].
张晓星 ;
程其云 ;
周湶 ;
孙才新 .
电力系统自动化, 2005, (08) :60-64
[5]   一种可交互的数据清洗系统 [J].
王咏梅 ;
陈家琪 ;
耿玉良 .
计算机工程与设计, 2005, (04) :955-957
[6]   一种基于聚类树的增量式数据清洗算法 [J].
刘芳 ;
何飞 .
华中科技大学学报(自然科学版), 2005, (03) :46-48
[7]   面向数据质量的ETL过程建模与实现 [J].
贾自艳 ;
黄友平 ;
罗平 ;
李嘉佑 ;
秦亮曦 ;
史忠植 .
系统仿真学报, 2004, (05) :907-911+914
[8]   基于粗糙集理论的数据清洗模型 [J].
黄大荣 ;
李劲 .
自动化技术与应用, 2004, (03) :11-13+17
[9]   基于模糊匹配的数据清洗 [J].
周咏梅 .
湘潭师范学院学报(自然科学版), 2004, (01) :41-44
[10]   基于遗传神经网络的数据清洗方法 [J].
覃华 ;
苏一丹 ;
李陶深 ;
不详 .
计算机工程与应用 , 2004, (03) :45-46+67