Data Mesh x Data Lake x Data Fabric

Caso esteja chegando agora recomendo acessar os artigos anteriores com a definição e benefícios do Data Mesh. Pode começar por aqui.

O Data Mesh pode não ser ideal para todas as empresas. O Data Mesh é voltado principalmente para organizações maiores que enfrentam incertezas e mudanças em suas operações e ambiente.

Se a empresa é pequena em relação às necessidades de dados e essas necessidades de dados não mudam com o tempo, o Data Mesh provavelmente é uma sobrecarga desnecessária.

Vamos comparar e compreender a relação entre Data Mesh, Data Lake e Data Fabric.

Data Mesh x Data Lake

O Data Lake é uma abordagem de tecnologia cujo objetivo principal tem sido tradicionalmente como um único repositório centralizado para mover os dados da maneira mais simples possível, onde uma equipe de Engenheiros de Dados é responsável por gerenciá-los.

Embora os Data Lakes possam fornecer um valor comercial significativo, eles também sofrem de alguns problemas. A questão principal é que, uma vez que os dados são movidos para o Data Lake, eles podem perder o contexto.

Por exemplo, podemos ter muitos arquivos contendo uma definição de cliente, um de um sistema de logística, um de pagamentos e um de marketing, qual é o correto para um determinado caso de uso?

Além disso, os dados no Data Lake não terão sido pré-processados, portanto, inevitavelmente, surgirão problemas de dados. O consumidor de dados normalmente terá que entrar em contato com o Engenheiro de Dados para entender e resolver problemas de dados, o que se torna um gargalo significativo para usar os dados e responder às perguntas de negócio.

Em comparação, o Data Mesh é mais do que apenas tecnologia. O Data Mesh combina aspectos tecnológicos e organizacionais, incluindo a ideia de propriedade de dados, qualidade de dados e autonomia.

Assim, os consumidores de dados têm uma visão clara sobre a qualidade dos dados e a propriedade dos dados, e os problemas de dados podem ser descobertos e resolvidos com muito mais eficiência. Em última análise, os dados podem ser usados de forma mais confiável.

Data Mesh x Data Fabric

Descobrir, acessar e incorporar novos conjuntos de dados para uso em análise de dados, Data Science e outras tarefas de pipeline de dados normalmente é um processo lento em organizações grandes e complexas.

Essas organizações geralmente têm centenas de milhares de conjuntos de dados que são gerenciados ativamente em uma variedade de armazenamentos de dados internamente e acesso a conjuntos de dados externos adicionais de ordens de magnitude. Simplesmente encontrar dados relevantes para um determinado processo é uma tarefa quase esmagadora.

Mesmo que os dados relevantes tenham sido identificados, passar pelos processos de aprovação, governança e preparação necessários para o uso real desses dados pode levar vários meses na prática. Muitas vezes é um grande impedimento para a agilidade organizacional.

Cientistas de Dados e Analistas de Dados são pressionados a usar dados pré-aprovados e pré-estabelecidos encontrados em repositórios centralizados como Data Warehouses, em vez de serem incentivados a usar uma variedade mais ampla de conjuntos de dados em suas análises.

Duas das propostas mais conhecidas para resolver ou minimizar esses problemas são o “Data Fabric” e o “Data Mesh”. Especificamente para o problema da integração de dados, esses conceitos abordam o desafio de eliminar a dependência de uma equipe centralizada em toda a empresa para executar a integração.

O Data Fabric concentra-se em uma coleção de vários recursos tecnológicos que colaboram para produzir uma interface para os usuários finais que consomem dados. Muitos dos defensores do Data Fabric defendem a automação por meio de tecnologias como Machine Learning de muitas das tarefas de gerenciamento de dados para permitir que os usuários finais acessem os dados de maneira mais simples.

Para o uso de dados simples, há algum valor nisso, no entanto, para situações mais complexas ou onde o conhecimento de negócios precisa ser integrado aos dados, as limitações do Data Fabric se tornarão aparentes.

Indiscutivelmente, o Data Fabric pode ser usado como parte de uma plataforma de autoatendimento Data Mesh, onde o Data Fabric expõe os dados aos domínios que podem incorporar seu conhecimento de negócios em um produto de dados resultante.

A diferença entre Data Fabric e Data Mesh não é óbvia. Em última análise, uma solução ideal provavelmente levará as melhores ideias de cada uma dessas abordagens.

A implementação do Data Mesh envolve 3 componentes principais:

1- Conexão às Fontes de Dados Onde Eles Residem

À medida que a empresa inicia sua jornada do Data Mesh, a primeira etapa é conectar-se às fontes de dados. Um princípio fundamental de implementação do Data Mesh é conectar as fontes de dados aproveitando seus investimentos existentes: Data Lakes ou Data Warehouses, em nuvem ou on-premises.

Ao contrário da abordagem de fonte única de verdade para centralizar todos os dados primeiro, a empresa está aproveitando e consultando os dados onde eles residem. É a primeira vitória do Data Mesh.

2- Criação de Domínios Lógicos

Depois de gerar conectividade em todos os vários conjuntos de dados, o próximo objetivo é criar uma interface para que as equipes de negócios e análises encontrem os dados.

Em termos de Data Mesh, chamamos isso de domínio lógico. É chamado de lógico, porque não estamos movendo dados para um repositório onde os consumidores de dados possam acessá-los. Em vez disso, estamos criando uma camada lógica onde eles podem fazer login em um painel para ver os dados que foram disponibilizados para eles.

Todos os dados residem em seu domínio, juntamente com equipes de domínio habilitadas a trabalhar de forma autônoma. Em essência, estamos promovendo o conceito de autoatendimento do Data Fabric em que os consumidores de dados podem fazer mais por conta própria.

3- Permitir Que as Equipes Criem Produtos de Dados

Quando você fornece a uma equipe de negócio acesso aos dados de que ela precisa, a próxima etapa é ensiná-la a converter conjuntos de dados em produtos de dados.

Em seguida, com um produto de dados, cria-se uma biblioteca ou um catálogo de produtos de dados. Algumas soluções de Data Mesh possuem um catálogo integrado que permite pesquisar, descobrir e identificar rapidamente produtos de dados que possam ser de interesse.

A criação de produtos de dados é um recurso poderoso, pois a empresa permite que seus consumidores de dados passem muito rapidamente da descoberta à idealização, bem como ao insight, porque estamos criando e usando rapidamente produtos de dados em toda a organização.

David Matos

Referências:

Formação Engenheiro de Dados

What is Data Mesh?

Data Mesh Principles and Logical Architecture

Data mesh vs. data fabric: Eliminate humans or use them more intelligently

Data Mesh x Data Lake x Data Fabric

Data Mesh x Data Lake

Data Mesh x Data Fabric

Relacionado

1 thought on “Data Mesh x Data Lake x Data Fabric”

Deixe um comentário Cancelar resposta

Data Mesh x Data Lake

Data Mesh x Data Fabric

Compartilhar

Relacionado

1 thought on “Data Mesh x Data Lake x Data Fabric”

Deixe um comentário Cancelar resposta