A DeepSeek quebrou novamente o domínio exclusivo dos gigantes da tecnologia ocidentais sobre o raciocínio da elite, lançando um modelo de IA de peso aberto que corresponde ao desempenho da OpenAI e do Google em matemática.
Lançado na quinta-feira, o DeepSeekMath-V2 alcançou o padrão de medalha de ouro na Olimpíada Internacional de Matemática (IMO) de 2025.
Na William Lowell Putnam Mathematical Competition, a principal competição de matemática para estudantes universitários de graduação nos Estados Unidos e Canadá, o modelo obteve 118 pontos em 120, superando a pontuação humana máxima de 90. Ao contrário dos sistemas rivais escondidos atrás de APIs, o DeepSeek divulgou os pesos publicamente, permitindo que os pesquisadores inspecionassem sua lógica diretamente.
Chegando durante o atraso do seu modelo principal R2 devido aos controlos de exportação dos EUA, o lançamento sinaliza resiliência técnica. Isso prova que arquiteturas especializadas podem fornecer resultados de última geração mesmo quando o acesso a hardware de ponta é restrito.
O Padrão Ouro: Quebrando o Monopólio Proprietário
DeepSeekMath-V2 correspondeu oficialmente ao padrão “Medalha de Ouro” na Olimpíada Internacional de Matemática (IMO) de 2025, resolvendo com sucesso 5 de 6 problemas. Correspondendo aos benchmarks proprietários estabelecidos pelo marco semelhante do Google DeepMind e pelo desempenho da medalha de ouro da OpenAI, esse desempenho nivela o campo de atuação com sistemas que antes eram intocáveis.
Longe de ser uma simples atualização iterativa, esta versão representa uma mudança fundamental no acesso ao raciocínio de elite da IA. Embora os laboratórios ocidentais tenham mantido seus modelos matemáticos mais capazes atrás de muros de “testadores confiáveis” ou APIs caras,o repositório do modelopara DeepSeekMath-V2 está disponível para download imediato.
As instituições académicas e os investigadores empresariais podem agora executar o modelo localmente, verificando as suas capacidades sem depender da infraestrutura em nuvem que pode estar sujeita a preocupações de privacidade de dados ou restrições geopolíticas.
Além da IMO, o modelo demonstrou capacidade sem precedentes na Competição Putnam, amplamente considerada como o exame de graduação em matemática mais difícil da América do Norte. Destacando a conquista, a equipe de pesquisa da DeepSeek declarou:
“No Putnam 2024, a principal competição de graduação em matemática, nosso modelo resolveu 11 dos 12 problemas completamente e o problema restante com pequenos erros, pontuando 118/120 e superando a pontuação humana mais alta de 90.”
Ultrapassar o limite humano num exame tão rigoroso sugere que o modelo não está apenas a recuperar provas memorizadas, mas a envolver-se na resolução de novos problemas. Alcançar 118 em 120 é particularmente notável dada a extrema dificuldade dos problemas, onde as pontuações médias são historicamente baixas.
A análise independente validou ainda mais essas métricas internas. Avaliações no subconjunto “Básico” do IMO-ProofBench, um benchmark desenvolvido pelo Google DeepMind, mostram que o modelo alcançou uma taxa de sucesso de 99,0%, confirmando a consistência do seu raciocínio em uma ampla gama de domínios matemáticos.
A verificação é crucial aqui, já que o campo foi recentemente atormentado por resultados exagerados, como uma afirmação retratada sobre o GPT-5, que alegava falsamente que o modelo havia resolvido os famosos problemas de Erdős.
Porliberando os pesos, a DeepSeek efetivamente comoditizou uma capacidade que foi considerada um importante fosso competitivo para o Vale do Silício apenas alguns meses atrás. Clement Delangue, cofundador e CEO da Hugging Face, enfatizou a importância dessa mudança em uma postagem no X:
Pelo que eu sei, não existe nenhum chatbot ou API que dê acesso a um modelo medalhista de ouro da IMO 2025. Isso não apenas muda hoje, mas você pode baixar os pesos com a versão de código aberto Apache 2.0 do@deepseek_aiMatemática-V2 ativada@huggingface!
Leia também:Gemini 2.5 “Deep Think” atinge o benchmark da medalha de ouro do ICPC – o que isso realmente significa
Imagine ser dono do…pic.twitter.com/FbTcg1GcnE
-clem 🤗 (@ClementDelangue)27 de novembro de 2025
Nos bastidores: o avanço da 'meta-verificação'
Historicamente, o desafio central na IA matemática tem sido a “alucinação”, em que os modelos chegam à resposta correta utilizando lógica falha, circular ou sem sentido. Em benchmarks de raciocínio quantitativo, os modelos muitas vezes conseguem adivinhar o número certo sem compreender os princípios subjacentes. A equipe de pesquisa DeepSeek explicou o problema central no whitepaper técnico:
“Muitas tarefas matemáticas, como a prova de teoremas, exigem uma derivação passo a passo rigorosa, em vez de respostas numéricas, tornando as recompensas das respostas finais inaplicáveis.”
Para resolver esta limitação fundamental,o documento técnicodetalha uma nova arquitetura centrada na “Meta-Verificação”. Ao contrário dos métodos de verificação padrão que simplesmente verificam se uma resposta corresponde a uma referência, a abordagem do DeepSeek avalia o próprio processo de verificação.
O DeepSeek treina um modelo secundário para julgar a qualidade da análise do verificador, evitando que o modelo primário “manipule” o sistema de recompensa, produzindo provas que parecem convincentes, mas logicamente nulas.
Criando uma salvaguarda contra hacking de recompensas, esta estrutura recursiva garante que o modelo seja recompensado apenas pelo rigor genuíno do raciocínio. Ao avaliar se os problemas identificados numa prova justificam logicamente a pontuação, o sistema impõe uma consistência lógica estrita.
A base desta arquitetura é um pipeline de treinamento “Cold Start”. Em vez de depender de enormes conjuntos de dados externos de provas matemáticas formais, que são escassos e caros de curar, o modelo gera iterativamente os seus próprios dados de treino. Descrevendo a metodologia, os pesquisadores afirmam:
"Acreditamos que os LLMs podem ser treinados para identificar problemas de prova sem soluções de referência. Tal verificador permitiria um ciclo de melhoria iterativo: (1) usar feedback de verificação para otimizar a geração de provas, (2) dimensionar a computação de verificação para rotular automaticamente novas provas difíceis de verificar... e (3) usar este verificador aprimorado para otimizar ainda mais a geração de provas."
"Além disso, um verificador de provas confiável nos permite ensinar os geradores de provas a avaliar as provas como o verificador faz. Isso permite que um gerador de provas refine iterativamente suas provas até que não consiga mais identificar ou resolver quaisquer problemas."
Através deste ciclo, o modelo inicializa suas próprias capacidades. À medida que o verificador se torna mais preciso, ele pode identificar erros mais sutis na saída do gerador. Consequentemente, o gerador é forçado a produzir provas mais rigorosas para satisfazer o verificador aprimorado.
Essa dinâmica cria um ciclo de feedback positivo que dimensiona o desempenho sem exigir um aumento proporcional nos dados rotulados por humanos. No momento da inferência, o modelo emprega “computação escalonada em tempo de teste”. Em vez de gerar uma única resposta, o sistema gera 64 provas candidatas para um determinado problema.
Em seguida, ele executa o processo de verificação em todos os 64 candidatos para selecionar o caminho mais logicamente correto. Transferindo a carga computacional da fase de treinamento (escalonamento de parâmetros) para a fase de inferência (busca de raciocínio), esta abordagem se alinha com as tendências mais amplas da indústria em direção ao pensamento do “Sistema 2”, onde os modelos “ponderam” sobre um problema antes de apresentar uma solução.
Resiliência estratégica: inovação apesar das sanções
Servindo como uma contra-narrativa crítica às recentes dificuldades da empresa com a disponibilidade de hardware, o lançamento demonstra uma agilidade técnica significativa. O principal modelo R2 da DeepSeek enfrenta atrasos relacionados ao hardware devido a falhas persistentes durante o treinamento nos chips Ascend domésticos da Huawei.
Esse revés destacou a imensa dificuldade que as empresas chinesas enfrentam na construção de uma pilha de software em hardware emergente e não comprovado, sob a pressão dos controlos de exportação dos EUA. Ao migrar para arquiteturas focadas na eficiência, o laboratório está demonstrando que ainda pode fornecer pesquisas de última geração.
DeepSeekMath-V2 é construído em DeepSeek-V3.2-Exp-Base, provando que os mecanismos de atenção esparsa introduzidos nesse modelo a partir de setembro estão prontos para produção.
Em outubro, a empresa lançou sua ferramenta de reconhecimento óptico de caracteres, que utilizou técnicas de eficiência semelhantes para compactar dez vezes o processamento de documentos.
A disponibilidade de peso aberto coloca uma pressão significativa sobre os laboratórios ocidentais para justificar a sua abordagem de código fechado.
À medida que o “fosso” da capacidade de raciocínio parece estar evaporando, o argumento de que a segurança exige manter esses modelos trancados a sete chaves torna-se mais difícil de sustentar quando capacidades comparáveis estão disponíveis gratuitamente no Hugging Face.
Para a indústria mais ampla de IA, este lançamento sugere que modelos especializados e altamente otimizados podem oferecer um caminho viável, mesmo quando o acesso a clusters massivos de GPUs Nvidia é restrito.
Ao focar em inovações algorítmicas como metaverificação e atenção escassa, a DeepSeek está conquistando um nicho competitivo que depende menos da escala de força bruta e mais da engenhosidade arquitetônica.













![[Atualização de software] Google Chrome 131.0.6778.139/140 Stable lançado, aqui estão o que há de novo e corrigido](https://media.askvg.com/articles/images2/Google_Chrome.png)
