¨¦ uma biblioteca C para aprendizado de m¨¢quina que permite a infer¨ºncia de CPU. Essa biblioteca define um formato bin¨¢rio para a distribui??o de modelos de linguagem de grande porte (LLMs). Para fazer isso ela utiliza , uma t¨¦cnica que permite que os LLMs sejam executados em um hardware de consumo com infer¨ºncia de CPU eficaz. A GGML suporta diferentes estrat¨¦gias de quantiza??o (por exemplo, quantiza??o 4 bits, 5 bits, e 8 bits), e para cada uma oferece diferentes trade-offs entre efici¨ºncia e desempenho. Uma maneira r¨¢pida de testar, executar e desenvolver aplicativos com esses modelos quantizados ¨¦ uma binding Python chamado . Este ¨¦ um wrapper Python no topo do GGML que elimina o c¨®digo boilerplate para infer¨ºncia, fornecendo uma API de alto n¨ªvel. Exploramos essas bibliotecas para construir provas de conceito e experimentos. Se voc¨º estiver considerando LLMs auto-hospedados, avalie de forma cautelosa essas bibliotecas apoiadas pela comunidade para a sua organiza??o.

