O an¨²ncio recente do DeepSeek R1 ¨¦ um ¨®timo exemplo de por que modelos de linguagem de pequeno porte (SLMs) permanecem interessantes. O R1 em tamanho real tem 671 bilh?es de par?metros e requer cerca de 1.342 GB de VRAM para funcionar, o que s¨® ¨¦ poss¨ªvel usando um mini cluster de oito GPUs NVIDIA de ¨²ltima gera??o. Mas o DeepSeek tamb¨¦m est¨¢ dispon¨ªvel em Qwen e Llama ¡ª modelos menores e de peso aberto ¡ª transferindo efetivamente suas habilidades e permitindo que seja executado em hardware muito mais modesto. Embora o modelo perca algum desempenho nesses tamanhos menores, ele ainda permite um grande salto de desempenho em rela??o aos modelos de linguagem de pequeno porte anteriores. O espa?o dos SLMs continua a inovar em outros lugares tamb¨¦m. Desde o ¨²ltimo Radar, a Meta introduziu o nos tamanhos 1B e 3B, a Microsoft lan?ou o , oferecendo resultados de alta qualidade com um modelo 14B, e o Google lan?ou o , um modelo de linguagem de vis?o nos tamanhos 3B, 10B e 28B. Esses s?o apenas alguns dos modelos menores que est?o sendo lan?ados, consolidando uma tend¨ºncia importante a ser acompanhada.
Modelos de linguagem de grande porte (LLMs) t¨ºm se provado muito ¨²teis em v¨¢rias ¨¢reas de aplica??o, mas o fato de serem grandes pode ser uma fonte de problemas: responder a um prompt requer grandes recursos computacionais, tornando as consultas lentas e caras; os modelos s?o propriet¨¢rios e t?o grandes que eles devem ser hospedados em uma nuvem por um terceiro, o que pode ser problem¨¢tico quanto a dados sens¨ªveis; e treinar um modelo ¨¦ proibitivamente caro na maioria dos casos. Esse ¨²ltimo problema pode ser resolvido com o padr?o RAG, que contorna a necessidade de treinar e otimizar modelos fundamentais, mas preocupa??es quanto ao custo e a privacidade geralmente persistem. Em resposta, temos identificado um crescente interesse em modelos de linguagem de pequeno porte (SLMs). Em compara??o ao seu irm?o mais popular, eles t¨ºm menos peso e menor precis?o, geralmente entre 3,5 e 10B de par?metros. sugerem que, no contexto correto, quando configurados corretamente, SLMs podem performar ou at¨¦ mesmo superar os LLMs. E seu tamanho torna poss¨ªvel rod¨¢-los em dispositivos de borda. N¨®s mencionamos anteriormente o Gemini Nano da Google, mas o cen¨¢rio est¨¢ evoluindo rapidamente, com a Microsoft introduzindo a s¨¦rie , por exemplo.

