Quantas GPUs São Necessárias Para Executar o ChatGPT?

O ChatGPT foi lançado pela OpenAI em 30/11/2022 e já é considerado o melhor chatbot do mundo. É realmente impressionante. Se ainda não experimentou, acesse aqui: https://openai.com/blog/chatgpt

Mas quantas GPUs são necessárias para executar o ChatGPT? E qual o custo para OpenAI liberar o ChatGPT para demonstração? Vamos descobrir!

Não sabemos a arquitetura exata do ChatGPT, mas a OpenAI atesta que é ajustado a partir de uma variante do GPT-3.5, então provavelmente tem algo próximo a 175B de parâmetros. É um modelo realmente grande.

Se você experimentar o ChatGPT perceberá o quão rápido ele é. Mas quão rápido? Um modelo de 3 bilhões de parâmetros pode gerar um token em cerca de 6ms em uma GPU A100 (usando cache + tensorRT + ativação). Se escalarmos isso para o tamanho do ChatGPT, deve levar 350ms segundos para uma GPU A100 imprimir uma única palavra.

Claro, você nunca poderia encaixar o ChatGPT em uma única GPU. Você precisaria de 5 GPUs A100 de 80 Gb apenas para carregar o modelo e o texto. O ChatGPT produz cerca de 15 a 20 palavras por segundo. Se usar A100s, isso pode ser feito em um servidor de 8 GPUs (uma escolha provável na nuvem do Microsoft Azure, por exemplo).

Então, qual seria o custo de hospedagem? Na nuvem do Azure, cada GPU A100 custa cerca de US$ 3 por hora. Isso é $ 0,0003 por palavra gerada.

Mas o ChatGPT gera muitas palavras! O modelo geralmente responde às consultas com cerca de 30 palavras, o que soma cerca de 1 centavo por consulta.

O ChatGPT adquiriu 1 milhão de usuários nos primeiros 5 dias de operação. Se um usuário médio fizer 10 consultas por dia, é razoável estimar que o ChatGPT atenda a cerca de 10 milhões de consultas por dia.

Podemos estimar que o custo de execução do ChatGPT seja de US$ 100 mil por dia ou US$ 3 milhões por mês. Este é um cálculo superficial. Presumo que os nós estejam sempre em uso com um tamanho de lote de 1. Na realidade, eles provavelmente agrupam durante alto volume, mas têm GPUs em repouso durante baixo volume.

Os custos reais para uma organização típica quase certamente seriam maiores do que isso porque a paralelização não é 100% eficiente, as GPUs não são 100% utilizadas e estimativa de tempo de execução é otimista.

O custo para o OpenAI pode ser menor, por causa da parceria com a Microsoft.

De qualquer forma, isso não é barato. Alguns dizem que é um desperdício despejar esses tipos de recursos (e carbono) em uma demonstração. Mas, o ChatGPT pode revolucionar a Inteligência Artificial.

David Matos

Referências:

Deep Learning Book Brasil

Tom Goldstein Thread

Quantas GPUs São Necessárias Para Executar o ChatGPT?

Relacionado

Deixe um comentário Cancelar resposta

Compartilhar

Relacionado

Deixe um comentário Cancelar resposta