A normalização dos dados é uma técnica frequentemente usada em aprendizado de máquina (Machine Learning) para transformar variáveis diferentes e colocá-las em uma mesma escala comum.
Isso é particularmente importante para modelos que usam gradiente descendente ou métodos relacionados à otimização, bem como modelos que são sensíveis à escala das variáveis de entrada.
Aqui estão duas possibilidades para normalização:
Normalização Pela Média
A normalização pela subtração da média centraliza os dados em torno de zero. Essa técnica mantém a forma original da distribuição dos dados, sem alterar a variação entre os pontos de dados. No entanto, o intervalo dos dados ainda varia e pode ser grande, o que pode ser um problema para alguns modelos de aprendizado de máquina.
A vantagem dessa abordagem é a sua simplicidade e a preservação da forma da distribuição original. No entanto, pode não ser a melhor escolha se o modelo for sensível à escala das variáveis de entrada.
Esta é a fórmula:
Normalização Pelo Standard Scaler (Média e Desvio Padrão)
A normalização usando a média e o desvio padrão (conhecida como “z-score normalization” ou StandardScaler em bibliotecas como scikit-learn) não apenas centraliza os dados, mas também os dimensiona de tal forma que eles têm um desvio padrão de 1.
Isso pode ser particularmente útil para modelos que são sensíveis às escalas das variáveis de entrada, porque ele garante que nenhuma variável tem um efeito desproporcional sobre o modelo devido à sua escala.
Ao subtrair a média e dividir pelo desvio padrão, você está assumindo que seus dados são aproximadamente normais (distribuição gaussiana). Se seus dados não são normais, essa abordagem pode não ser a melhor.
Esta é a fórmula:
Qual Usar?
A escolha entre essas duas abordagens depende do contexto:
Se a escala das variáveis é importante e você está usando um modelo sensível à escala (como SVMs, k-NN ou redes neurais), então é mais apropriado usar o Standard Scaler.
Se você está mais interessado em manter a forma original da distribuição e só quer mudar o ponto central, então a normalização pela média pode ser suficiente.
Ambas as técnicas têm suas próprias vantagens e desvantagens e a escolha geralmente depende das necessidades específicas da tarefa de modelagem em questão.
David Matos