Com o custo cada vez menor de micro-sensores, a realidade é que em breve, cada objeto no planeta poderá ter seu próprio sensor e será possível saber a exata localização de cada um deles, em tempo real. Este fenômeno, muito similar ao crescimento da internet que vivenciamos algumas décadas atrás, vai demandar um novo conjunto de aplicações de monitoramento e controle que sejam capazes de lidar com alto volume de dados e processamento de baixa latência (ou seja, em tempo real).
Aplicações que requerem processamento em tempo real de alto volume de fluxos de dados (streams de dados) estão empurrando os limites da infraestrutura de processamento de dados tradicional. Alguns exemplos de aplicações baseadas em stream de dados: processamento eletrônico de negociação em bolsa de valores, monitoramento de redes, detecção de fraude e comando e controle em ambientes militares. O que estes exemplos têm em comum? Grandes fluxos de dados (streams) gerados por segundo e necessidade de processamento em tempo real.
Em Wall Street e outros mercados de ações, o trading eletrônico já é uma realidade há muitos anos e continua crescendo em números. Um único mercado de ações pode gerar milhares de mensagens por segundo. Alguns anos atrás, a estimativa era de 122.000 mensagens por segundo e que esta quantidade estaria dobrando de tamanho a cada ano. Ou seja, os sistemas tradicionais de processamento de dados, já não serão capazes de lidar com os requerimentos básicos deste mercado: alto volume de dados e processamento com baixa latência.
Monitoramento de redes e prevenção de ataques, assim como detecção de fraude em tempo real, são outros exemplos de alto volume de dados e necessidade de baixa latência na análise. Com milhares de dados chegando a cada segundo, um único segundo de perda, pode significar o sucesso ou fracasso de uma aplicação.
O uso militar de sensores também é outro exemplo. No exército dos EUA, os soldados estão sendo equipados com sensores de monitoramento dos sinais vitais do corpo (o mesmo está sendo feito com jogadores da liga de futebol americana, a NFL). Além disso, todos os veículos militares são equipados com GPS, que permitem o monitoramento dos veículos em tempo real, a fim de detectar qualquer alteração de rota.
Micro-sensores em pulseiras, serão usados em parques nos EUA. Isso permitirá desde o controle do uso dos brinquedos, até o monitoramento de crianças que se perdem dos pais. Mais uma vez, perceba 2 características vitais: alto volume de dados e necessidade de processamento em tempo real.
O Stream de dados gerado pela internet das coisas vai superar em muito o que hoje é chamado de Big Data. O volume de dados gerado nos dias de hoje, será totalmente superado, quando os sensores avançarem para seu próximo estágio de utilização e com a redução contínua dos custos de sensores, o limite para suas aplicações não existirá mais. E novas tecnologias, como banco de dados em memória e mecanismos de processamento de stream de dados (Stream Processing Engines), já começam a chamar atenção. Soluções como Aurora e TelegraphCQ, são uma nova categoria de software de infraestrura e monitoramento em tempo de real que está está surgindo para suportar as duas características principais desta tecnologia: alto volume de dados e baixa latência no processamento.
Para conseguir a baixa latência, um sistema precisa ser capaz de processar os dados sem a necessidade de gravar o dado em disco (o que levaria mais tempo). Para aplicações em tempo real, onde a baixa latência é um requerimento básico, o processamento deve ser feito “In-Stream”, ou seja, à medida que os dados vão chegando, vão sendo processados e analisados em memória, sem a necessidade de gravação em disco.
Há uma grande classe de aplicações existentes e emergentes que requerem soluções sofisticadas de processamento em tempo real para streams de dados, gerados especialmente pela internet das coisas e muitas das soluções ainda não existem. O conceito de Big Data será amplamente extendido e a Data Science estará no coração destas novas soluções que irão surgir.
Particularmente, considero este assunto fascinante. Nos próximos posts vamos tratar de assuntos como Banco de Dados em memória, StreamSQL e Engines de Processamento de Streams. Caso ainda não tenha assinado o blog, não deixe de assinar para ser avisado sobre os novos posts. Até lá.
David Matos
3 thoughts on “Internet of Things e Stream de Dados”