Muitos sistemas que constru¨ªmos possuem duas caracter¨ªsticas principais: serem capazes de prover uma resposta baseada em quest?es sobre um grande conjunto de dados e quase imposs¨ªveis de acompanhar como chegaram a essa resposta. Apesar desta opacidade, n¨®s ainda queremos avaliar e melhorar a qualidade das respostas. Com o padr?o de LLM como ju¨ªz, usamos uma LLM para avaliar as respostas de outros sistemas, que por sua vez pode ser baseado em um LLM. Notamos esse padr?o ser utilizado para avaliar a relev?ncia dos resultados de pesquisa em um cat¨¢logo de produtos e para avaliar quando um chatbot baseado em LLM guiou suas usu¨¢rias em uma dire??o sensata. Naturalmente, o sistema avaliador deve ser configurado e calibrado cuidadosamente. Isto pode gerar ganhos significativos, o que, por sua vez, se traduz em custos menores. Esta ¨¦ uma ¨¢rea de pesquisa em andamento, tendo seu estado atual resumido .

