<正>典型的大数据处理流程包括:数据的获取和记录、数据的清洁/抽取/标注、数据的整合/聚类/表达、数据的分析/建模和数据解释等五个阶段。很明显,因为涉及到庞大的数据量,这一整套处理流程,在各个不同阶段都会对传统的技术手段提出挑战。比如,海量的、多格式的内容数据和状态信息,经由各种客户端采集后,连同成千上万的访问和操作请求,会以高并发的方式向系统服务器施加压力;在分析阶段,为了完成数据挖掘的目的,通常需要处理海量的历史数据,构建复杂的数学统计和分析模型,并针对大量结果之间的关联性做出高效正确的处理,同时还要支持数据更新带来的重新评估;而在展示阶段,则应当隐藏诸如数据存储拓扑和数据存储结构等实现细节,对业务应用暴露规范的数据访问接口,对复杂的数据访问需求提供透明支撑,大大减小业务应用的构建难度。