A DeepSeek é uma empresa chinesa de Inteligência Artificial, fundada em 2023 por Liang Wenfeng, cofundador do fundo de hedge High-Flyer. Com sede em Hangzhou, Zhejiang, na China a empresa dedica-se ao desenvolvimento de modelos de linguagem de grande escala (LLMs) de código aberto.
Em janeiro de 2025, a DeepSeek lançou o DeepSeek-R1, um LLM que deu origem a um chabot que rapidamente se tornou o aplicativo gratuito mais baixado na App Store da Apple nos Estados Unidos, superando o ChatGPT. Este modelo destacou-se por sua eficiência, baixo custo e por ser gratuito, oferecendo código e explicações técnicas detalhadas para adaptação e aprimoramento.
A abordagem de código aberto da DeepSeek permite que empresas utilizem e modifiquem seus modelos livremente, embora isso exija considerável expertise técnica. No entanto, a associação da empresa com o governo chinês e preocupações potenciais de segurança de dados requerem cautela, levando a restrições como a proibição de uso pela Marinha dos Estados Unidos.
A ascensão da DeepSeek no cenário da Inteligência Artificial representa um marco significativo, especialmente para a comunidade de código aberto, e demonstra as capacidades avançadas da China no desenvolvimento de IA. Sua transparência contrasta com as abordagens mais reservadas de algumas empresas de IA ocidentais, gerando discussões sobre privacidade, segurança nacional e a dinâmica da competição global em IA.
O Que Explica o Sucesso do DeepSeek R1?
Uma das razões técnicas por trás do sucesso do DeepSeek R1 é o Mixture of Experts (MoE), uma arquitetura neural sofisticada que atua como um sistema de roteamento inteligente dentro do modelo.
O MoE segmenta o modelo em diversos “especialistas”, que, na prática, são sub-redes neurais completas, cada uma com uma especialização diferente em determinados tipos de processamento ou áreas de conhecimento. Um componente chamado “router” (roteador) decide dinamicamente quais especialistas devem ser ativados para cada entrada específica. É fascinante perceber como a lógica de roteamento está profundamente integrada ao funcionamento da Inteligência Artificial.
Na ilustração abaixo observamos que o modelo, embora tenha uma capacidade total impressionante de 671 bilhões de parâmetros, durante qualquer inferência, o roteador ativa apenas um subconjunto de especialistas, totalizando 37 bilhões de parâmetros.
Esse mecanismo é essencial porque:
Cada especialista opera como uma rede neural autônoma, capaz de desenvolver habilidades específicas (por exemplo, um pode se tornar mais eficiente em cálculos matemáticos, outro em interpretação de contexto e outro na geração de código).
O roteador aprende a identificar e selecionar a melhor combinação de especialistas para cada tarefa, garantindo um processamento mais eficiente e especializado.
Essa arquitetura permite escalar o modelo para centenas de bilhões de parâmetros sem comprometer a eficiência computacional, pois somente um conjunto reduzido de especialistas é ativado por vez.
Variações do MoE
Hash MoE: Funciona com uma função hash fixa. Por exemplo, se um token for “eat” e o hash for (1,4,2,3), em um Transformer de quatro camadas, o token será encaminhado para os especialistas 1,4,2 e 3, respectivamente, em cada camada. Esse método segue um roteamento determinístico fixo.
Soft MoE: Para um conjunto de N especialistas processando P consultas por lote (X1…XT), utiliza-se uma matriz de probabilidade W(i,j,k), onde a consulta do especialista é determinada por Σ(W(i,j,k) × Xk). Nesse caso, há uma distribuição probabilística, permitindo que cada fragmento de informação seja parcialmente processado por múltiplos especialistas ao mesmo tempo, com cada um contribuindo proporcionalmente à sua relevância para aquela entrada específica.
Paralelos Com o Cérebro Humano
A arquitetura do MoE possui similaridades com teorias da cognição, como a modularidade da mente proposta por Jerry Fodor. Segundo essa teoria, a mente humana é composta por módulos especializados e relativamente independentes, que funcionam com encapsulamento informacional. Por exemplo, o módulo de processamento visual não precisa entender como o módulo de linguagem opera. Além disso, os módulos cognitivos são projetados para funções específicas, organizando-se em um sistema central de pensamento com módulos periféricos especializados.
Outro paralelo interessante é a atenção seletiva. Quando uma pessoa executa uma atividade específica, como tocar um instrumento musical, seu cérebro ativa predominantemente as áreas especializadas em coordenação motora fina, memória musical, processamento auditivo e sincronização entre as mãos, enquanto outras regiões permanecem menos ativas.
Além do MoE, outra técnica inovadora no DeepSeek R1 é o Multi-head Latent Attention, um tema que merece uma exploração mais aprofundada em um artigo futuro.
David Matos
Referências:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning