大数据基础设施:仍有大量*,关于 MapReduce 和 BigTable 的*(Cutting 和 MikeCafarella 因为这个而做出了 Hadoop)的诞生问世已有 10年 了,在这段时间里,大数据的基础设施层已经逐渐成熟,一些关键问题也得到了解决。
但是,基础设施领域的*仍然富有活力,这很大程度上是得益于可观的开源活动规模。无疑是 Apache Spark 之年 。
你得****数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分可以由产品来完成,而有的则需要人来做。一切都需要无缝集成起来。后,要想让所有这一切发挥作用,整个公司从上到下都需要树立以数据驱动的文化,这样大数据才不仅仅是个 “东西”,而且就是那个(关键的)“东西”。
许多情况下,他们正处在这样一个重要的拐点上,即经过大数据基础设施的数年建设后,能够展示的成果还不多,至少在公司内部的商业用户看来是这样的。但是大量吃力不讨好的工作已经做完了,现在开始进入到有影响力的应用部署阶段了。只是从目前来看,这种建构在核心架构之上的应用数量还不成比例。