El artículo de hoy contiene un caso práctico y sencillo de uso de chatbots multimodales que he querido probar y mostrar aquí durante bastante tiempo, pero que aún demuestra que estamos lejos de esperar un "razonamiento" confiable de las herramientas LLM al incorporar incluso elementos visuales bastante rudimentarios como gráficos de series temporales. Desafié a ChatGPT 4o (como se discutió en un artículo anterior, o1 en la aplicación web aún no admite la entrada de imágenes), Gemini y Claude para analizar un gráfico de áreas apiladas que represente visualmente la evolución del patrimonio neto de un individuo. Después de varios intentos y alucinaciones flagrantes de todos los modelos, comparto los mejores resultados que, como es habitual en la mayoría de las batallas de SCBN publicadas en Talking to Chatbots, fueron los de ChatGPT.

Dibujo lineal en blanco y negro generado por el modelo ControlNet Canny que muestra a una mujer con traje de neopreno sosteniendo una tabla de surf en la playa. Un texto de CLIP Interrogator que describe una imagen se superpone al dibujo.

La intensa competencia en el espacio de los chatbots se refleja en la cantidad cada vez mayor de contendientes en la tabla de clasificación de LMSYS Chatbot Arena, o en mi modesta contribución con las SCBN Chatbot Battles que presenté en este blog y completé según lo permita el tiempo. Hoy estamos explorando WildVision Arena, un nuevo proyecto en Hugging Face Spaces que pone en competencia modelos de visión y lenguaje. La mecánica de WildVision Arena es similar a la de LMSYS Chatbot Arena. Es una clasificación de fuentes colectivas basada en los votos de las personas, donde puede ingresar cualquier imagen (más un mensaje de texto opcional) y se le presentarán dos respuestas de dos modelos diferentes, manteniendo el nombre del modelo oculto hasta que vote por eligiendo la respuesta que le parezca mejor. Estoy compartiendo algunos ejemplos de lo que estoy probando hasta ahora y finalizaremos esta publicación con una batalla tradicional 'SCBN' donde evaluaré los modelos de visión y lenguaje según mis casos de uso.