es una librer¨ªa de aprendizaje autom¨¢tico en C que permite la inferencia de CPU. Esta librer¨ªa define un formato binario para distribuir modelos grandes de lenguaje (LLMs, por sus siglas en ingl¨¦s). Para hacerlo, usa , una t¨¦cnica que permite que los LLMs ejecuten inferencia de CPU efectiva en hardware de consumo. GGML soporta varias estrategias de cuantificaci¨®n digital (e.g., cuantificaci¨®n de 4 bits, 5 bits, y 8 bits), cada una de las cuales ofrece diferentes relaciones coste-beneficio entre eficiencia y rendimiento. Una manera r¨¢pida de probar, ejecutar y construir aplicaciones con estos modelos de cuantificaci¨®n, es un binding de Python llamado . Se trata de un wrapper de Python sobre GGML que nos abstrae del repetitivo c¨®digo necesario para ejecutar inferencia al proveer una API de alto nivel. Hemos usado estas librer¨ªas para construir pruebas de concepto y experimentos. Si est¨¢s valorando usar LLMs auto alojados, eval¨²e cuidadosamente estas librer¨ªas para su organizaci¨®n.

