Varios sistemas que construimos comparten dos importantes caracter¨ªsticas: ser capaces de responder una pregunta acerca de un conjunto de datos extenso y ser casi imposible de saber c¨®mo se ha llegado a la soluci¨®n. A pesar de esta opacidad nosotros aun queremos evaluar y mejorar la calidad de las respuestas. Con el patr¨®n LLM como juez , nosotros usamos LLM para evaluar la respuesta de otro sistema, que a su vez podr¨ªa estar basado en un LLM. Hemos visto este patr¨®n ser usado para determinar la relevancia de los resultados de b¨²squeda en un cat¨¢logo de productos y evaluar si un chatbot basado en LLM estaba guiando a los usuarios en una direcci¨®n sensata. Naturalmente, el sistema evaluador debe estar configurado y calibrado de manera cuidadosa. Puede generar ganancias significativas en eficiencia, lo que, a su vez, se traduce en costos m¨¢s bajos. Esta es una ¨¢rea de investigaci¨®n en curso, con un estado actualizado y resumido en .

