A métrica AUC, que representa a Área sob a Curva ROC (Receiver Operating Characteristic), é amplamente utilizada para comparar modelos de Machine Learning para classificação, especialmente em contextos onde as classes estão desbalanceadas.
Categoria: Ciência de Dados
Dados Linearmente x Não Linearmente Separáveis
A questão da linearidade em dados, especialmente no contexto de algoritmos de classificação, refere-se à capacidade de separar classes de dados usando uma linha reta (em duas dimensões), um plano (em três dimensões) ou um hiperplano (em dimensões mais altas). Essa separação linear é fundamental para entender como diferentes algoritmos de aprendizado de máquina modelam e fazem previsões a partir dos dados.
7 Datasets Públicos Para Projetos de Data Science
Ter um bom portfólio de projetos para buscar vagas em Data Science é um diferencial. E isso já não é novidade! Mas encontrar bons datasets públicos pode ser um desafio. Para ajudar você, uma lista de 7 Datasets Públicos Para Projetos de Data Science.
10 Dicas Para Melhorar a Performance do PySpark
O PySpark pode ser um grande consumidor de recursos, principalmente quando você está trabalhando com grandes conjuntos de dados. Ajustar as configurações pode ajudar a otimizar o uso de memória e melhorar o desempenho.
Engenharia de Dados Não é Engenharia de Software – Parte 2
Aqui está um segredo de engenharia de dados: os pipelines de dados raramente são testados em unidade. Os pipelines de dados geralmente são testados simplesmente implantando-os — geralmente primeiro em um ambiente de teste ou homologação.
5 Dicas Para Entrar no Mercado de Ciência de Dados
Entrar no mercado de Ciência de Dados pode ser um processo desafiador, mas existem algumas etapas que você pode seguir para aumentar suas chances de conseguir uma vaga.
Data Science na Indústria de Videogames
De acordo com uma estimativa da Accenture, o mercado global de videogames vale mais de US$ 300 bilhões. Vamos explorar as várias maneiras pelas quais a Ciência de Dados é usada na indústria de jogos.
Gerenciamento de Metadados na Era do Big Data
O Gerenciamento de Metadados, parte fundamental de um processo de Governança de Dados, vem mostrando cada vez mais sua importância. Vamos discutir o Gerenciamento de Metadados na Era do Big Data.
8 Conceitos Estatísticos Fundamentais Para Data Science
Neste artigo veremos 8 Conceitos Estatísticos Fundamentais Para Data Science que você precisa entender ao estudar ou trabalhar com Ciência de Dados.
3 Estratégias Para Trabalhar com Grandes Conjuntos de Dados em Python
Como Cientista de Dados, é bastante comum ter que lidar com “Big Data”, que corresponde a conjuntos de dados que, embora possam não ser tão grandes, são grandes o suficiente para fazer um computador lutar para processá-los.