Dibujo de trazos en blanco y negro generado por el modelo ControlNet Canny, que representa a una mujer con un traje de neopreno sosteniendo una tabla de surf en la playa. Sobre el dibujo se superpone un texto de CLIP Interrogator, que describe una imagen: "una mujer con traje de neopreno sosteniendo una tabla de surf en la playa con olas de fondo y un cielo azul, imagen promocional, foto coloreada, precisionismo. "

La intensa competencia en el espacio de los chatbots se refleja en la cantidad cada vez mayor de contendientes en la tabla de clasificación de LMSYS Chatbot Arena, o en mi modesta contribución con las SCBN Chatbot Battles que presenté en este blog y completé según lo permita el tiempo. Hoy estamos explorando WildVision Arena, un nuevo proyecto en Hugging Face Spaces que pone en competencia modelos de visión y lenguaje. La mecánica de WildVision Arena es similar a la de LMSYS Chatbot Arena. Es una clasificación de fuentes colectivas basada en los votos de las personas, donde puede ingresar cualquier imagen (más un mensaje de texto opcional) y se le presentarán dos respuestas de dos modelos diferentes, manteniendo el nombre del modelo oculto hasta que vote por eligiendo la respuesta que le parezca mejor. Estoy compartiendo algunos ejemplos de lo que estoy probando hasta ahora y finalizaremos esta publicación con una batalla tradicional 'SCBN' donde evaluaré los modelos de visión y lenguaje según mis casos de uso.