Enable javascript in your browser for better experience. Need to know to enable it?

÷ÈÓ°Ö±²¥

Publicado : Sep 27, 2023
N?O ENTROU NA EDI??O ATUAL
Este blip n?o est¨¢ na edi??o atual do Radar. Se esteve em uma das ¨²ltimas edi??es, ¨¦ prov¨¢vel que ainda seja relevante. Se o blip for mais antigo, pode n?o ser mais relevante e nossa avalia??o pode ser diferente hoje. Infelizmente, n?o conseguimos revisar continuamente todos os blips de edi??es anteriores do Radar. Saiba mais
Sep 2023
Avalie ?

¨¦ uma biblioteca C para aprendizado de m¨¢quina que permite a infer¨ºncia de CPU. Essa biblioteca define um formato bin¨¢rio para a distribui??o de modelos de linguagem de grande porte (LLMs). Para fazer isso ela utiliza , uma t¨¦cnica que permite que os LLMs sejam executados em um hardware de consumo com infer¨ºncia de CPU eficaz. A GGML suporta diferentes estrat¨¦gias de quantiza??o (por exemplo, quantiza??o 4 bits, 5 bits, e 8 bits), e para cada uma oferece diferentes trade-offs entre efici¨ºncia e desempenho. Uma maneira r¨¢pida de testar, executar e desenvolver aplicativos com esses modelos quantizados ¨¦ uma binding Python chamado . Este ¨¦ um wrapper Python no topo do GGML que elimina o c¨®digo boilerplate para infer¨ºncia, fornecendo uma API de alto n¨ªvel. Exploramos essas bibliotecas para construir provas de conceito e experimentos. Se voc¨º estiver considerando LLMs auto-hospedados, avalie de forma cautelosa essas bibliotecas apoiadas pela comunidade para a sua organiza??o.

Inscreva-se para receber a newsletter do Technology Radar

?

?

Seja assinante

?

?

Visite nosso arquivo para acessar os volumes anteriores