Data Lake é um termo recente, criado pelo CTO (Chief Technical Officer) do Pentaho, James Dixon, para descrever um componente importante no universo da análise de dados e do Big Data. A ideia é ter um único repositório dentro da empresa, para que todos os dados brutos estejam disponíveis a qualquer pessoa que precise fazer análise sobre eles. Comumente utiliza-se o Hadoop para trabalhar com os Data Lakes, mas o conceito é bem mais amplo do que apenas Hadoop.
A ideia de Data Lake como recurso corporativo ainda está no começo. O conceito de um repositório central, relativamente de baixo custo, que possa armazenar todos os tipos de dados da empresa, ainda é um sonho, apesar de soluções comerciais já disponíveis no mercado. Os Data Lakes armazenam os dados em seu formato bruto, sem qualquer processamento e sem governança. Aliás, apesar das soluções comerciais, Data Lake é um conceito e não uma tecnologia. Podem ser necessárias várias tecnologias para criar um Data Lake. O Data Lake em essência, é uma estratégia de armazenamento de dados.
Os Data Lakes são projetados para o consumo de dados – o processo que envolve a coleta, importação e processamento de dados para armazenamento ou uso posterior. O Data Lake não requer que os usuários criem um esquema antes de preparar os dados para armazenamento. Os dados podem ser simplesmente consumidos e o esquema criado e aplicado quando os dados forem usados para análise.
Data Lakes são recursos para toda a organização, e não apenas a área de TI (tanto que já existe o conceito de Business Data Lake). Todas as partes interessadas devem ser envolvidas no planejamento de projetos de Data Lakes, que serão fundamentais para a arquitetura de Big Data da empresa. Além de gerentes de TI, um projeto de Data Lake deve envolver os líderes empresariais e usuários. Especialistas em armazenamento também precisam ser envolvidos.
O valor de negócio de um Data Lake tem muito pouco a ver com as tecnologias escolhidas. O valor do negócio é derivado das habilidades de ciência de dados que se pode aplicar sobre o Data Lake. Data Lakes não são substitutos para plataformas analíticas ou infraestrutura existente. Em vez disso, eles complementam os esforços existentes e apoiam a descoberta de novas perguntas sobre os dados. Uma vez que novas questões sobre os dados tenham sido descobertas, pode-se “otimizar” as respostas. Otimizar nesse caso, pode significar mover os dados para fora do Data Lake, em Data Marts ou Data Warehouses.
Quando se ouve falar sobre um ponto único para reunir todos os dados que uma organização deseja analisar, imediatamente se imagina a noção de Data Warehouse e Data Mart. Mas há uma distinção fundamental entre Data Lake e Data Warehouse. O Data Lake armazena dados brutos, sob qualquer forma do jeito que foram coletados na fonte de dados. Não há suposições sobre o esquema dos dados e cada fonte de dados pode usar qualquer esquema. Cabe aqueles que vão analisar os dados, dar sentido a esses dados para o propósito ao qual a análise de destina.
Em contrapartida, o Data Warehouse tende a usar a noção de um único esquema para todas as necessidades de análise, o que se torna impraticável em muitas situações. Os dados são limpos e organizados antes do armazenamento, fazendo com que os dados estejam disponíveis para uso e análise, assim que são armazenados. Ao mudar o foco para o armazenamento dos dados brutos, isso coloca a responsabilidade sobre os analistas de dados.
Isto leva a uma crítica comum do Data Lake – que ele seja apenas uma lixeira para dados de qualidade muito variável, algo como um pântano de dados. A crítica é válida, porém irrelevante. Os cientistas de dados conhecem bem os problemas de qualidade de dados. Muitas das técnicas estatísticas sofisticadas, são criados para resolver problemas de qualidade de dados. Os cientistas de dados estão sempre céticos sobre a qualidade dos dados e como lidar com dados questionáveis. Por conta disso, o Data Lake passa a ter uma importância ainda maior, pois os cientistas de dados podem começar a trabalhar com os dados em formato bruto e aplicar técnicas e modelos que façam mais sentido para o objetivo que se pretende alcançar, ao invés de trabalhar com dados já processados por mecanismos de limpeza sobre os quais não se tem visibilidade.
Os Data Warehouses geralmente não possuem apenas dados limpos, mas também agregados de forma que fiquem mais fáceis de analisar. Mas os cientistas de dados tendem a opor-se a isso também, porque a agregação implica em dados que possivelmente foram descartados. O Data Lake deve conter todos os dados, porque você não sabe o que as pessoas vão encontrar de informação valiosa, hoje ou daqui alguns anos.
Os Data Lakes também levantam questões sobre segurança e privacidade. Restringir o acesso aos Data Lakes, a pequenos grupos de Data Science, pode ajudar a minimizar o problema, mas não evita questões sobre a responsabilidade e privacidade dos dados.
Para um treinamento online e em português, confira: Data Lake – Design, Projeto e Integração
David Matos
Muito bom o texto , escolhi Data Lake como tema do TCC , esse artigo foi de grande utilidade
Oi Wesley. Obrigado. Que bom que ajudou. Assine a newsletter para ser avisado sobre os novos posts. Abs. David
Bom dia. Onde assino a newsletter do site, não estou encontrando.
Oi Flavio. Já incluí seu e-mail na lista. Abs
Parabéns David pelo excelente texto! A explicação didática sobre o que é um data lake e um data waherouse é muito esclarecedora. Olhando como um profisisonal que analisa dados, acredito que muita informação se perde quando os dados são agregados antes de serem analisados.
Muito obrigado Raniere. Abs
Boa tarde
Você poderia recomendar algum livro sobre Data Lake?
Obrigado.
Olá Mauricio. Dá uma olhada no livro: Data Lake Architecture: Designing the Data Lake and Avoiding the Garbage Dump. Um dos melhores! Abs
David, achei muito bom o texto, ajudou-me a entender melhor esse ambiente de Data Lake –
DL na qual estou trabalhando hoje, principalmente explicação didática, poderia ter incluído mais desenhos para ilustrar tudo que foi dito, também a parte onde compara os ambientes de DL e DW. Parabéns.
Valeu Leopoldo. Muito obrigado.
muito bom.
Valeu. Muito obrigado!
Excelente material !
Valeu Victor. Obrigado.
Parabéns pela concisão e clareza da exposição. Precisamos de mais artigos assim. Obrigado.
Valeu Valdemir. Muito obrigado!
Muito esclarecedor!
Muito obrigado.
Olá! Obrigada por dividir conosco seu conhecimento. Sou advogada e faço mestrado em Propriedade Intelectual e Transferência de Tecnologia para Inovação, estou escrevendo sobre a adequação da LGPD nas empresas. Teu texto é muito relevante. Tem mais material? Como faço para me inscrever no newsletter do site.
Obrigada.
Oi Júlia. Muito obrigado. Este é um tema importante e vou trazer mais artigos sobre isso. Já incluí seu e-mail na lista. Abs. David
Explicação bem didática! Parabéns!
Obrigado! 🙂
Olá,
Por favor, incluir o meu email na lista para receber Newsletter.
Ok. Feito.
Parabéns pelo texto, muito bom mesmo!
Obrigado Julia.
poderia me incluir na newsletter
Incluído Andre.
Boa noite! Poderia adicionar meu e-mail para newsletter….
Adicionado.
Excelente texto. Muito explicativo, me ajudou bastante.
Valeu, obrigado!
Excelente publicação! esclarecedora e didática parabéns. Eu gostaria de continuar recebendo newsletter
Obrigado Juliana.
Parabéns,
Claro e objetivo.
Obrigado.
Parabéns, excelente explicação sobre um assunto relativamente novo!
Parabéns pelo excelente texto. Muito explicativo.