Enable javascript in your browser for better experience. Need to know to enable it?

÷ÈÓ°Ö±²¥

Publicado : Oct 23, 2024
N?O ENTROU NA EDI??O ATUAL
Este blip n?o est¨¢ na edi??o atual do Radar. Se esteve em uma das ¨²ltimas edi??es, ¨¦ prov¨¢vel que ainda seja relevante. Se o blip for mais antigo, pode n?o ser mais relevante e nossa avalia??o pode ser diferente hoje. Infelizmente, n?o conseguimos revisar continuamente todos os blips de edi??es anteriores do Radar. Saiba mais
Oct 2024
Experimente ?

Muitos sistemas que constru¨ªmos possuem duas caracter¨ªsticas principais: serem capazes de prover uma resposta baseada em quest?es sobre um grande conjunto de dados e quase imposs¨ªveis de acompanhar como chegaram a essa resposta. Apesar desta opacidade, n¨®s ainda queremos avaliar e melhorar a qualidade das respostas. Com o padr?o de LLM como ju¨ªz, usamos uma LLM para avaliar as respostas de outros sistemas, que por sua vez pode ser baseado em um LLM. Notamos esse padr?o ser utilizado para avaliar a relev?ncia dos resultados de pesquisa em um cat¨¢logo de produtos e para avaliar quando um chatbot baseado em LLM guiou suas usu¨¢rias em uma dire??o sensata. Naturalmente, o sistema avaliador deve ser configurado e calibrado cuidadosamente. Isto pode gerar ganhos significativos, o que, por sua vez, se traduz em custos menores. Esta ¨¦ uma ¨¢rea de pesquisa em andamento, tendo seu estado atual resumido .

Inscreva-se para receber a newsletter do Technology Radar

?

?

Seja assinante

?

?

Visite nosso arquivo para acessar os volumes anteriores