segunda-feira, 26 de março de 2018

Big data não é só "usar Hadoop"


Dois artigos que darão muito o que pensar às pessoas que pensam que "Hadoop" é sinônimo de "Bigdata". Há muito o que considerar antes de simplesmente usar uma ferramenta:

https://developers.slashdot.org/story/17/03/25/0418231/apache-hadoop-has-failed-us-tech-experts-say

"is great if you're a data scientist who knows how to code in MapReduce or Pig...but as you go higher up the stack, the abstraction layers have mostly failed to deliver on the promise of enabling business analysts to get at the data."

E este outro artigo é "matador":

https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

It forces you to write every computation in terms of a map, a group by, and an aggregate, or perhaps a sequence of such computations. Running computations in this manner is a straightjacket, and many calculations are better suited to some other model. The only reason to put on this straightjacket is that by doing so, you can scale up to extremely large data sets. Most likely your data is orders of magnitude smaller.

Confundir grande quantidade de dados com Bigdata é uma das causas disto. A outra é pensar que Hadoop é uma ferramenta de BI. Não é! Foi criado para outro tipo de problema.


Nenhum comentário:

Postar um comentário