Modelos de linguagem de grande porte (LLMs) geralmente requerem infraestrutura significativa de GPU para operar, por¨¦m h¨¢ uma forte imposi??o para faz¨º-los funcionar em um hardware mais modesto. A quantiza??o de um modelo de grande porte pode reduzir os requisitos de mem¨®ria, permitindo que um modelo de alta fidelidade seja executado em hardware de custo menor ou at¨¦ mesmo em uma CPU. Esfor?os como o tornam poss¨ªvel executar LLMs em hardware, incluindo Raspberry Pis, laptops e servidores de commodities. Muitas organiza??es est?o implantando LLMs auto-hospedados. Isso geralmente ocorre devido a preocupa??es de seguran?a ou privacidade, ou, ¨¤s vezes, ¨¤ necessidade de executar modelos em dispositivos de borda. Exemplos de c¨®digo aberto incluem , , e Llama. Essa abordagem oferece melhor controle do modelo durante o ajuste fino para um caso de uso espec¨ªfico, seguran?a e privacidade aprimoradas, bem como acesso offline. Embora tenhamos ajudado alguns de nossos clientes a hospedar LLMs de c¨®digo aberto para completar c¨®digo, recomendamos que voc¨º avalie cuidadosamente as capacidades organizacionais e o custo de executar esses LLMs, antes de tomar a decis?o de hosped¨¢-los.
Grandes Modelos de Linguagem (LLMs) geralmente requerem infraestrutura de GPU significativa para operar. Agora estamos come?ando a ver ferramentas para outras plataformas, como o , que possibilitam a execu??o de LLMs em plataformas de hardware diferentes ¨C incluindo Raspberry Pis, laptops e servidores comuns. Assim, os LLMs auto-hospedados agora s?o uma realidade. Atualmente, h¨¢ v¨¢rios LLMs de c¨®digo aberto como o , o e o que podem ser auto-hospedados. Essa abordagem traz v¨¢rios benef¨ªcios, como melhor controle no ajuste fino para o caso de uso espec¨ªfico, seguran?a e privacidade aprimoradas, bem como, obviamente, acesso offline. No entanto, voc¨º deve avaliar cuidadosamente os recursos dentro da organiza??o e o custo de rodar tais LLMs antes de decidir auto-hospedar.

