Data Mesh é uma nova abordagem baseada em uma arquitetura moderna e distribuída para gerenciamento de dados analíticos.
Como Data Mesh os usuários finais podem acessar e consultar facilmente os dados onde estiverem, sem primeiro transportá-los para um Data Lake ou Data Warehouse.
A estratégia descentralizada do Data Mesh distribui a propriedade dos dados para equipes específicas de domínio que gerenciam e fornecem os dados como um produto. Ainda é uma realidade distante de muitas empresas, mas certamente é uma tendência.
Neste post vamos compreender o que é o Data Mesh.
Objetivo
O principal objetivo do Data Mesh é eliminar os desafios de disponibilidade e acessibilidade de dados em escala. O Data Mesh permite que usuários de negócios e Cientistas de Dados acessem, analisem e operacionalizem insights de negócios de praticamente qualquer fonte de dados, em qualquer local, sem a intervenção de equipes de dados especializadas.
Simplificando, Data Mesh torna os dados acessíveis, disponíveis, detectáveis, seguros e interoperáveis. O acesso mais rápido aos dados se traduz diretamente em um tempo de retorno mais rápido sem a necessidade de transporte de dados.
Por Que Data Mesh e Por Que Agora?
O volume global de dados está projetado para exceder 180 zettabytes nos próximos cinco anos. As plataformas de dados atuais têm várias falhas de arquitetura que dificultam o processamento de dados corporativos e inibem o crescimento dos negócios. As arquiteturas de dados atuais simplesmente não foram projetadas para o massivo volume de dados que aumenta a cada dia.
O Data Mesh é uma resposta para essas limitações agora que o mundo é cada vez mais orientado a dados e se tornará ainda mais nos próximos anos.
Vejamos alguns problemas das arquiteturas de dados atuais e como o Data Mesh ajudaria a resolver.
Problema 1: Atualmente as empresas usam uma estratégia de centralização para processar dados com várias fontes de dados, tipos e casos de uso. No entanto, a centralização exige que os usuários importem/transporte dados de pontos diferentes para um Data Lake central para serem consultados para análise, o que é demorado e caro.
Como o Data Mesh resolveria esse problema: A arquitetura distribuída do Data Mesh considera os dados como um produto com propriedade de domínio separada de cada unidade de negócios. Esse modelo de propriedade de dados descentralizado reduz o tempo de obtenção de insights e o tempo de obtenção de valor, capacitando as unidades de negócios e as equipes operacionais a acessar e analisar dados de maneira rápida e fácil.
Problema 2: À medida que os volumes de dados globais continuam a aumentar, o método de consulta em um modelo de gerenciamento centralizado requer alterações em todo o pipeline de dados que não responde em escala. Ele diminui o tempo de resposta para novos consumidores/fontes de dados à medida que o número de fontes aumenta, o que afeta negativamente a agilidade dos negócios para obter valor dos dados e responder às mudanças.
Como o Data Mesh resolveria esse problema: O Data Mesh delega a propriedade dos conjuntos de dados da central para os domínios (equipes individuais ou usuários de negócios) para permitir agilidade nos negócios e mudanças em escala. A arquitetura do Data Mesh orienta as empresas para a tomada de decisões em tempo real, fechando a lacuna de tempo e espaço entre a ocorrência de um evento e seu consumo/processo para análise.
Problema 3: A transferência de dados geralmente é suscetível a diretrizes e privacidade de dados que proíbem a migração de dados se os dados estiverem armazenados em determinadas geografias ou jurisdições legais, como dados armazenados em um país da União Européia, mas que precisam ser acessados por um usuário na América do Norte . O cumprimento dos regulamentos de governança de dados é demorado e tedioso, e pode atrasar significativamente o processamento de dados e as equipes de análise que precisam de inteligência de negócios crítica que os ajude a manter uma vantagem competitiva.
Como o Data Mesh resolveria esse problema: No gerenciamento descentralizado de dados, os domínios são responsáveis pela qualidade, segurança e transferência de seus produtos de dados. O Data Mesh fornece uma camada de conectividade que permite acesso direto e recursos de consulta por usuários técnicos e não técnicos a conjuntos de dados onde residem, evitando transferências de dados dispendiosas e preocupações sobre privacidade.
No próximo artigo trago os benefícios da arquitetura Data Mesh.
David Matos
Referências:
Adorei seus artigos me ajudaram muito a entender sobre Data warehouse, data lake e data mesh
Show! Os exemplos práticos ajudam muito a visualizar o conceito e solução. Obrigado!
Estou curioso para saber como será essa disponibilidade dos dados na prática sem datawarehouse, sem datamart, sem datalake. Sabemos das dificuldade que acessar dados transacionais implicam.
Bom ponto Ricardo, e imagino também como será acessar dados para consumo sem tratamento adequado (raw data) em nome da agilidade … o conceito de domínios e propriedade dos dados pode muito bem ser aplicado em dados centralizados extraídos de suas fontes originais transacionais/ou não e tratados (qualidade) ..