Enable javascript in your browser for better experience. Need to know to enable it?

÷ÈÓ°Ö±²¥

Publicado : Apr 02, 2025
Apr 2025
Avalie ?

¨¦ a primeira gera??o de modelos de racioc¨ªno do DeepSeek. Atrav¨¦s de uma progress?o de modelos n?o baseados em racioc¨ªnio, as engenheiras da DeepSeek projetaram e utilizaram m¨¦todos para maximizar a utiliza??o do hardware. Isso inclui Multi-Head Latent Attention (MLA), Mixture of Experts (MoE) gating, treinamento de pontos flutuantes de 8 bits (FP8) e programa??o PTX de baixo n¨ªvel. Sua abordagem de permite que o DeepSeek-R1 rivalize com modelos de ¨²ltima gera??o a um custo significativamente reduzido para treinamento e infer¨ºncia.

DeepSeek-R1-Zero ¨¦ not¨¢vel por outra inova??o: as engenheiras conseguiram extrair capacidades de racioc¨ªnio de um modelo n?o baseado em racioc¨ªnio utilizando simples aprendizado por refor?o, sem a necessidade de ajuste fino supervisionado. Todos os modelos DeepSeek s?o open-weight, o que significa que est?o dispon¨ªveis gratuitamente, embora o c¨®digo de treinamento e os dados permane?am propriet¨¢rios. O reposit¨®rio inclui seis modelos densos destilados do DeepSeek-R1, baseados no Llama e Qwen, sendo que o DeepSeek-R1-Distill-Qwen-32B supera o OpenAI-o1-mini em v¨¢rios benchmarks.

Inscreva-se para receber a newsletter do Technology Radar

?

?

Seja assinante

?

?

Visite nosso arquivo para acessar os volumes anteriores