Dados se tornaram a norma. Estão literalmente em todos os lados, mas podemos realmente compreender totalmente o que os dados nos dizem? Estamos vendo a foto completa (a Big Picture)? Provavelmente não. A menos que você esteja usando uma ferramenta que forneça uma linhagem completa de dados, a história que você consegue descobrir é, bem, digamos incompleta. Por quê? Continue lendo para descobrir. O Que é Linhagem de Dados (Data Lineage)?
Vamos Definir Linhagem de Dados
Podemos definir a linhagem de dados como o ciclo de vida dos dados ou a jornada dos dados. Esse ciclo de vida inclui onde os dados se originam, como foram obtidos ponto a ponto e, claro, onde estão hoje. Por meio da linhagem de dados, as organizações podem entender melhor o que acontece com os dados à medida que viajam por diferentes pipelines (ETL, arquivos, relatórios, bancos de dados, etc.) e, portanto, tomam decisões de negócios mais informadas. A linhagem de dados também permite que as empresas rastreiem fontes de dados comerciais específicos para fins de rastreamento de erros, implementação de mudanças nos processos e implementação de migrações de sistema para economizar quantidades significativas de tempo e recursos, melhorando tremendamente a eficiência do BI ou de processos de Ciência de Dados.
E o Papel dos Metadados?
Não é de surpreender que, assim como o papel dos metadados no domínio da governança de grandes volumes de dados tenha se tornado central, os metadados também são um elemento-chave quando se trata da linhagem de dados. Deixe-me explicar:
Enquanto a linhagem de dados é a representação visual da jornada de dados, os dados reais apresentados na linhagem devem primeiro ser localizados e verificados. Isso é feito por ninguém menos que nosso querido amigo, metadados. De fato, os metadados e a linhagem estão interligados, pois é por meio de metadados que podemos encontrar todos os itens de dados relacionados a qualquer relatório específico ou processo ETL, ver todas as dependências relacionadas a eles e rastrear todo o seu ciclo de vida. Em suma, os metadados são para a linhagem de dados que são as rodas de um carro. Metadados é o que possibilita a linhagem de dados e a demanda por ferramentas para grandes metadados está crescendo rapidamente.
Casos de Uso
À medida que a governança de dados se torna cada vez mais importante, ainda me surpreende quantas pessoas o abordam do ângulo errado. Tantas vezes, a conversa gira em torno de desafios técnicos e orientados para o sistema. E não é de surpreender que esse seja o caso. Durante anos, os fornecedores de ETL e gerenciamento de metadados colocaram um “adesivo” em seus produtos e divulgaram que eles fornecem “governança de dados”. E, embora forneçam alguns metadados e recursos de linhagem de dados técnicos, na realidade, essas ferramentas são apenas “zeladores de dados”. Deixe-me explicar o que quero dizer com um exemplo.
A empresa sempre tem necessidade de acessar informações e, geralmente, isso inclui a movimentação de dados entre os sistemas. Quando a TI precisa integrar sistemas, eles determinam os dados que precisam ser movidos com base nos requisitos e na análise das origens e destinos. Eles documentam suas descobertas e projetos, geralmente em uma enxurrada de documentos do Word, planilhas do Excel ou fluxogramas do Visio. Isso inclui detalhes sobre como os dados serão movidos, incluindo a frequência com que os dados precisam ser movidos (diário versus horário versus tempo real), limites de qualidade que precisam ser respeitados, quais regras precisam ser verificadas e muito mais. Após a análise e o projeto, a solução precisa ser implementada e alguém em TI cria o código (um ETL, um script,…). Antes da solução entrar em produção, ela é testada. Em cada um desses pontos, a organização sabe exatamente de onde os dados vieram, como estão sendo usados e como se movimentam entre os sistemas.
Agora avancemos seis meses. As pessoas que trabalharam no projeto original seguiram em frente. A documentação do projeto (como era de se esperar) foi mal feita, ou pior, é completamente ausente. Qualquer revisão da integração ou entendimento de como as mudanças podem afetar o sistema – e mais importante, o negócio – exige retrabalho de engenharia e análise reversa, incluindo a realização de todos os erros cometidos.
Multiplique isso por todos os movimentos de dados já em execução, e os que estão sendo planejados e construídos, e está claro que a TI está com uma bagunça em suas mãos. E, como precisam resolver seu problema imediato, eles procuram as ferramentas que conhecem – as ferramentas de gerenciamento de dados que silenciosamente processam os bits de dados. Acredita-se que essas ferramentas, de alguma forma, irão reverter a engenharia da solução originalmente implementada pela TI. Eles tentam digitalizar todos os tipos de código de processamento de dados para informar a empresa de onde os dados vieram. O problema, no entanto, é que as saídas são poucas, incompletas e basicamente sem sentido para os negócios.
É uma abordagem muito reativa que eu comparo a limpar uma casa inundada de água. A reação da TI é obter um esfregão maior e mais forte. Parece que isso pode ajudá-los a limpar sua bagunça, mas não fornece uma solução real para o problema em questão. Simplificando: a TI tem a ferramenta errada para o trabalho.
A melhor abordagem, na minha opinião, é impedir proativamente a água de inundar a casa em primeiro lugar. No caso da governança de dados, isso significa colocar em prática um processo de controle desde o início ou, no nosso exemplo, formalizar o processo já em vigor, incluindo negócios e interação da TI. Certifique-se de que você não está criando coisas que as pessoas não conseguem encontrar. Use artefatos verdadeiros, como especificações de mapeamento e contratos de compartilhamento de dados, para conduzir proativamente o processo. Crie sensores do sistema: pontos de controle que varrem os sistemas de origem e de destino quando algo mudou e disparam um alerta notificando os administradores. Certifique-se de que a empresa está respondendo apenas às exceções, em vez de fazer exceções em sua empresa.
Ou seja, use a ferramenta certa para o trabalho e você não vai precisar de retrabalho!
David Matos
Referências:
Design e Automação de Pipelines de Dados
Data Lake – Design, Projeto e Integração
Data Lineage and Data Quality: Two Vital Elements for Enterprise Success
The Next Frontier of Data Integration: Data Lineage and Governance
Data Governance for the Real-Time Data Lake
1 thought on “O Que é Linhagem de Dados (Data Lineage)?”