AWS数据湖十年,云计算老大哥的磨刀之路

导读: 从 2006 年上线至今,AWS 已经走过了十几个年头。亚马逊在一个周围懵懂的时代里,拉开了云计算的大幕。AWS 位于 Gartner 魔力象限云计算的领导者坐标系,和竞争对手的差距拉的比较大,

丝瓜网小编提示,记得把"AWS数据湖十年,云计算老大哥的磨刀之路"分享给大家!

从 2006 年上线至今,AWS 已经走过了十几个年头。亚马逊在一个周围懵懂的时代里,拉开了云计算的大幕。AWS 位于 Gartner 魔力象限云计算的领导者坐标系,和竞争对手的差距拉的比较大,它在前瞻性上的优势,一直遥遥领先。

数据湖,也是亚马逊发展了近十年的一项技术。AWS 每一次变革和成长,都在云计算的历史中写下了自己的足迹,成绩令人瞩目。而云上数据湖,经过十年的酝酿,将会产生什么样的推动力呢?1、什么是数据湖?

AWS 的定义也不止一个,在众多的 AWS re:Invent 演讲中,我们看到了以下定义:

re:Invent 2016:What is a Data Lake? A “Data Lake” is a repository that holds raw data in its native format until it is needed by down stream analytics processes.

re:Invent 2018:Defining the AWS Data Lake Data lake is an architecture with a virtually limitless centralized storage platform capable of categorization" processing" analysis" and consumption of heterogeneous datasets。

对于数据湖的定义,业界并没有完全一致的说法。大多数人提起数据湖,也会或多或少的提到 Pentaho 公司的创始人詹姆斯·狄克逊 (James Dixon),在 2010 年的时候,他在他的一篇名为”Hadoop 和数据湖“的博客中写道:”我们创造了一个新概念:数据湖。数据湖是一种比数据集市更自然的数据存储理念,即在系统或存储库中以自然格式存储数据的方法。“

总的来说,AWS 认为”数据湖“需满足以下特征:

集中式存储,满足”a single source of truth“ 唯一真知来源原则

收集和存储任何类型的数据,包括结构化、半结构化、非结构化以及原始数据

快速轻松地执行新类型的数据分析

丝瓜网 crfgs.com