Pai do Hadoop fala sobre BD transacional, concorrência e big data nas empresas

Doug Cutting, membro da Apache Software Foundation e líder de arquitetura da Cloudera, afirma que as corporações ainda têm muito a ganhar com a plataforma e aconselhou os CIOs a começarem com coisas pequenas, quase que como uma prova de conceito

Simples, tímido e extremamente pragmático. Essa é a primeira impressão que se tem de Doug Cutting, um dos criadores da plataforma que se tornou praticamente sinônimo de big data, a Hadoop. Atualmente chefe de arquitetura da Cloudera e membro da Apache Software Foundation, Cutting esteve no Brasil pela primeira vez nesta semana para participar do EMC Forum, em São Paulo, onde falou sobre a origem da solução e os benefícios já colhidos por empresas em diferentes indústrias, como finanças e saúde, por conta da ascensão da análise de grandes volumes de dados.

Sujeito humilde, ele se mostra alheio às vaidades comuns às celebridades do mundo da tecnologia e comenta que, até tudo acontecer, não enxerga o potencial que muitos pintavam para o Hadoop. Quem o convenceu de que a plataforma poderia revolucionar indústrias e modelos de negócios foi o fundador da Cloudera, Mike Olson, empresa à qual ele se uniu em 2009 para liderar o time de arquitetura. A seguir, você confere os principais trecho da entrevista exclusiva concedida ao IT Forum 365.

IT Forum 365 – Quando sentiu que o Hadoop poderia ser converter em uma espécie de padrão para big data?

Doug Cutting – Eu não fui o primeiro a acreditar nisso. Eu comecei o projeto quando estava trabalhando com mecanismos de busca nos idos de 2005. A plataforma veio a ganhar força em 2008 e, na época, as pessoas falavam com muito entusiasmo em levar a solução para o mundo corporativo. Mas eu não acreditava num potencial tão grande quando, em 2009, Mike Olson (fundador da Cloudera) me convenceu de que o projeto poderia mudar muitas indústrias.

A verdade é que nunca fui um grande fã de banco de dados relacional, trabalhava com mecanismos de busca (no Yahoo) e esse tipo de banco de dados não funcionava bem para buscas. Por outro lado, as empresas estruturaram seus negócios em cima desse tipo de arquitetura. Eu estava trabalhando num mundo separado e percebi que algo como o Hadoop poderia trazer benefícios em diversas frentes. Trata-se de uma plataforma mais escalável, que permite as pessoas desenvolverem aplicativos mais rapidamente e, como é sabido, o estilo de tradicional de desenvolver aplicações no mundo corporativo normalmente leva muito tempo e é repleto de processos. E nós aprendemos com isso.

Essa nova plataforma foi pensada para você armazenar seus dados e ter uma série de funcionalidades embutidas. Você pode explorar seus dados, desenvolver aplicações mais rapidamente e, quando for necessária qualquer mudança, você age com mais facilidade. Utiliza ferramentas para reprocessar as coisas. No mundo tradicional, você tem uma ferramenta. No mundo do big data você tem diversas ferramentas como busca, MapReduce, Spark, APIs para gráficos e analytics, e com isso se faz tudo que um banco de dados relacional faria, mas de maneira mais simples e rápida.

ITF 365 – Diante desse cenário, você ainda vê espaço para banco de dados relacional no futuro?

Cutting – Acredito que o banco de dados relacional será parte do ecossistema de big data, terá um espaço, mas pequeno. Muitas pessoas já fazem data warehouse utilizando Hadoop e muito mais rapidamente. O pai do data warehouse tem dado seminários mostrando como estruturar um data warehouse utilizando Hadoop. Você pode criar sistemas relacionais nessa plataforma, usando Impala ou Hive.

Algo que ainda não é forte no Hadoop são os sistemas transacionais, mas com o tempo eles virão. Eles costumavam ser os primeiros sistemas a serem desenvolvidos, mas isso vem mudando, o interesse maior está em analytics e esse tipo de aplicação não demanda um sistema transacional necessariamente. E se houver uma demanda específica para isso, as empresas podem usar Oracle ou outras opções que existirão no mercado. A grande oportunidade está em analytics e no valor que existe em ter suas informações armazenas em apenas uma fonte. E com o tempo virão dentro do Hadoop os sistemas ditos transacionais.

ITF 365 – E como você vê sistemas de banco de dados como Hana, da SAP?

Cutting – Hana é um produto muito high end, você pagará muito mais para armazenar seus dados, mas como foi desenvolvido ao longo de uma década funciona muito bem. No futuro, Hadoop vai ser a primeira opção para a maior parte do seu processamento. Olhe para o smarpthone, ele é telefone, câmera, agenda, pode não reunir os melhores produtos individualmente, mas as pessoas o utilizam pela facilidade e porque estão muito bem integrados com o mundo digital. E isso acontecerá com Hadoop. Você terá tudo ali e se precisar fazer algo diferente é simples e rápido, além da integração com diversas soluções como Tableau Software. Mesmo com telefones, os fotógrafos seguem com suas câmeras, existe um nicho e o mesmo acontecerá com Hana para coisas muito sofisticadas.

ITF 365 – No início do projeto, você imaginava que empresas como SAP, SAS Institute, Teradata, EMC, entre outras, poderiam adaptar seus produtos para a plataforma Hadoop?

Cutting – Como Hadoop é código aberto não acreditava que grandes empresas pudessem padronizar o modelo de big data em torno dessa plataforma, mas com o passar do tempo isso aconteceu e me surpreendeu, até a Teradata utiliza. Elas padronizaram e acordaram que era a plataforma padrão para esse tipo de trabalho.

ITF 365 – Hoje plataformas como Spark e Storm emergem como competidores. Você as vê como concorrentes ou como produtos que podem ser complementares?

Cutting – Acredito que competem em algum nível, mas se complementam. Tem coisas que essas plataformas executam até melhor que Hadoop. Entre elas, vejo o Spark muito mais popular. Muitas pessoas que buscam análise em tempo real ou ambientes para streaming o fazem por meio do Spark porque é uma ferramenta de ponta para isso. Por outro lado, Storm é bom para análise de dados em tempo real. Essas plataformas melhoram o Hadoop, elas competem, mas não existe uma guerra, você não precisa escolher um vencedor, sobretudo, por estarem dentro do mundo open source.

ITF 365 – Como pai do Hadoop, você acredita que as empresas estejam extraindo todos os benefícios da plataforma?

Cutting – As empresas podem certamente fazer muito mais do que está aí. Mas desenvolver uma nova TI e suportar isso dá muito trabalho e nem sempre você consegue mudar para as novas tecnologias com tanta frequência, acredito que seja fruto de um processo e um trabalho de formiga, começa com alguma coisa mais simples e vai aumentando aos poucos. Acredito que em mais alguns anos teremos um cenário bem diferente do atual.

ITF 365 – Que conselho você daria para um CIO melhor utilizar ou melhor encarar o desafio de big data?

Cutting – Acredito que a melhor forma de começar é encontrar um uso que seja simples, como uma prova de conceito. Acho um erro começar querendo fazer tudo, incluindo gráficos, análise preditiva e em tempo real. Por exemplo, se você quiser reduzir seus custos com data warehouse, você o pode fazer com Hadoop e é uma boa maneira de iniciar, já que você terá realmente redução, conhecerá melhor a plataforma e estará mais confiante para seguir com projetos mais complexos. Outra coisa é olhar a questão dos silos existentes nas empresas. Um banco, por exemplo, pode ter as divisões de varejo, cartão de crédito, financeira que, normalmente, trabalham separadas. Com um banco de dados comum, os ganhos podem ser maiores e essa possibilidade é real com os sistemas existentes e não é cara.

Fonte: ITForum365

Inteligência de Negócio

Deixe uma resposta Cancelar resposta