WildVision Arena and the Battle of Multimodal AI: We Are Not the Same

Los modelos de visión-lenguaje son uno de los muchos pilares del aprendizaje automático y la inteligencia artificial que se analizan en este blog. Una vez 'predije' que la IA sólo será una amenaza para la humanidad el día que capte el humor auto-depreciativo. Muchos de nosotros hemos experimentado con Chatbots que ayudan a darnos ideas y crear prompts de texto-a-imagen, y modelos como CLIP y DeepBooru son herramientas prácticas que se utilizan ampliamente en la generación de imágenes con IA. CLIP o DeepBooru se encuentran entre los primeros modelos generativos que podrían definirse como "lenguaje-visión". Este post no pretende ser un tutorial ni profundizar en lo que es un modelo de visión-lenguaje, pero el siguiente ejemplo, inspirado en la imagen de portada de un antiguo post de este blog, ayuda a ilustrar de dónde vienen este tipo de modelos y hacia dónde se dirigen... el largo camino hacia la IA multimodal:

Screenshot of a Stable Diffusion web interface in Automatic1111, displaying a feature where an img2img prompt is highlighted in yellow, reading "a woman in a wet suit holding a surfboard on the beach with waves in the background and a blue sky, promotional image, a colorized photo, precisionism." This prompt was created by the "Interrogate CLIP" feature, as indicated by a red oval around the button. On the left side of the screen, a large image of a woman in a wetsuit holding a surfboard on the beach is visible. To the right, a sequence of six smaller images are shown, representing variations of the large image that were generated after the "Generate" button was clicked. — Captura de pantalla de una interfaz web de Stable Diffusion en Automatic1111, que muestra un mensaje img2img resaltado en amarillo, que dice “una mujer con un traje de neopreno sosteniendo una tabla de surf en la playa con olas de fondo y un cielo azul, imagen promocional, una foto coloreada, precisionismo .” Este aviso fue creado por el **“Preguntar a CLIP”** , resaltado con un óvalo rojo. En el lado izquierdo de la pantalla, se ve una imagen grande de una mujer en traje de neopreno sosteniendo una tabla de surf en la playa. A la derecha, se muestra una secuencia de seis imágenes más pequeñas, que representan variaciones de la imagen grande que se generaron después de hacer clic en el botón "Generar".
[Subtítulo de ALT Text Artist GPT] [Click para agrandar]

Screenshot of a Stable Diffusion web interface in Automatic1111, showing an img2img prompt in yellow highlight with the text "1girl, aircraft, asian, beach, black hair, blurry, blurry background, bodysuit, cloud, day, depth of field, horizon, lips, ocean, outdoors, planet, realistic, red lips, retro artstyle, short hair, sky, solo, space, surfboard, water, wetsuit." This prompt was generated by clicking the "Interrogate DeepBooru" button, encircled in orange on the screen. On the left, a prominent image of a woman with black hair in a wetsuit holding a surfboard on a beach is visible. On the right, there are six derivative images generated by the system based on the initial image and prompt. — Captura de pantalla de la interfaz web de Stable Diffusion en Automatic1111, que muestra un prompt img2img resaltado en amarillo con el texto “1girl, avión, asiático, playa, cabello negro, borroso, fondo borroso, mono, nube, día, profundidad de campo, horizonte, labios agua, cabello corto, cielo, el aire libre, espacio, estilo de arte retro, labios rojos, océano, planeta, realistas, solo, tabla de surf, traje de neopreno.” Este mensaje se generó al hacer clic en el botón **“Interrogar a DeepBooru”** , rodeado en naranja. A la izquierda, se ve una imagen destacada de una mujer de cabello negro en traje de neopreno sosteniendo una tabla de surf en una playa. A la derecha, hay seis imágenes derivadas generadas por el sistema en función de la imagen inicial y el mensaje. [Subtítulo de ALT Text Artist GPT] [Click para agrandar]

Particularmente desde que se lanzó ChatGPT-Vision en septiembre pasado, se ha dado un rápido crecimiento en la adopción generalizada de estos modelos. Se integran versiones cada vez más sofisticadas en ChatGPT, el chatbot más popular, así como en sus principales competidores como Gemini (antes Google Bard) y Copilot. La intensa competencia en el espacio de los chatbots se refleja en la cantidad cada vez mayor de contendientes en el ranking de LMSYS Chatbot Arena , y en mi modesta contribución con las Batallas de chatbots SCBN, que muestro en este blog en la medida que el tiempo lo permite. Hoy vamos a explorar WildVision Arena, un nuevo proyecto en Hugging Face Spaces que pone a competir modelos de visión-lenguaje. La mecánica de WildVision Arena es similar a la de LMSYS Chatbot Arena. Es un ranking colaborativo basado en los votos de los usuarios, en el que puedes enviar cualquier imagen (más un mensaje de texto opcional) y se te presentarán dos respuestas de dos modelos diferentes, manteniendo el nombre del modelo oculto hasta que votes por la respuesta que te parezca mejor. Compartiré algunos ejemplos de lo que estoy probando hasta ahora y finalizaremos con una "tradicional" batalla SCBN en la que evaluaré los modelos de visión-lenguaje según mis casos de uso.

A medida que más gente participe en WildVision Arena y emita sus votos, habrá más datos comparativos sobre estos modelos y sus responsables estarán aún más incentivados a mejorarlos y seguir siendo competitivos. El espacio sólo llevaba unos días activo en el momento en que se escribió este post, por lo que aún no hay un ranking disponible, pero incluye la siguiente lista de modelos (cada uno con un enlace a su página Hugging Face correspondiente):

GPT-4V, de OpenAI.
Gemini Pro Vision, de Google.
Llava-1.5-13b | Llava-1.5-34b: chatbot de código abierto basado en Llama/Vicuna.
Qwen-VL-Chat, de Alibaba Cloud.
CogVLM-Chat: modelo de lenguaje-visión de código abierto de múltiples autores.

1. El aprendizaje es sólo un subproducto de la falacia de correlación-causalidad

✍️ Para la primera prueba, elegí un meme que incluí en una antigua historia de Charlas con Chatbots. El Erudito de los Memes, un GPT de ChatGPT Plus que se especializa en explicaciones de memes demasiado académicas y condescendientes, hizo un trabajo bastante decente al diseccionarlos y explicarlos. Para la prueba de hoy, después de ejecutar varias rondas en Vision Arena, aquí está la respuesta que elegí:

😎 Explica este meme:

A five-part meme relating concepts from statistics and data science to various dramatic scenarios depicted in stills from films or other media. The topmost part shows three individuals in a courtroom, each aiming a pistol with the labels “beliefs,” “reality,” and “statistics” superimposed on each person respectively. The second part displays a sniper with the label “data science” aiming down from a high vantage point. The third part is a historical photo of naval gunners on a battleship with the caption “learning is just a byproduct of the correlation-causation fallacy” across it. The last part shows a science fiction scene of a spaceship firing green lasers with the caption “every single person who confuses correlation and causation ends up dying.” — Meme de cinco partes que relaciona conceptos de estadística y ciencia de datos con varios escenarios dramáticos representados en fotogramas de películas u otros medios. La parte superior muestra a tres personas en una sala de tribunal, cada una apuntando con una pistola con las etiquetas "creencias", "realidad" y "estadísticas" superpuestas a cada persona, respectivamente. La segunda parte muestra a un francotirador con la etiqueta "ciencia de datos" apuntando hacia abajo desde un punto de vista elevado. La tercera parte es una fotografía histórica de artilleros navales en un acorazado con la leyenda "el aprendizaje es sólo un subproducto de la falacia de correlación-causalidad". La última parte muestra una escena de ciencia ficción de una nave espacial disparando láseres verdes con la leyenda "toda persona que confunde correlación y causalidad acaba muerta". [Texto alternativo por ALT Text Artist GPT]

🤖 Este meme utiliza una serie de imágenes que aumentan en intensidad para presentar con humor un argumento sobre el uso indebido de la correlación y la causalidad en el análisis de datos, específicamente en el contexto de la estadística, la ciencia de datos y el aprendizaje automático.
En la primera imagen, denominada “creencias”, “realidad” y “estadísticas”, vemos personajes de una película o programa de televisión apuntando con armas, lo que puede interpretarse como una indicación de que a menudo hay puntos de vista o datos contradictorios entre lo que la gente cree, qué es real y qué muestran las estadísticas.
La segunda imagen muestra a un francotirador etiquetado como “ciencia de datos”, que representa la ciencia de datos como una disciplina que apunta a un punto o problema específico con precisión, tal vez refinando la comprensión aproximada proporcionada por las creencias, la realidad y las estadísticas.
En la tercera imagen, los artilleros de acorazados etiquetados como “aprendizaje automático” sugieren que el aprendizaje automático toma medidas en función de la orientación proporcionada por la ciencia de datos. El título asocia el aprendizaje automático con la “falacia de correlación-causalidad”, lo que implica que los algoritmos de aprendizaje automático a veces pueden confundir correlación (cosas que suceden juntas) con causalidad (una cosa causa a otra).
Finalmente, la última imagen, que presenta una escena de una película de ciencia ficción con múltiples rayos láser destruyendo un objetivo, está etiquetada con una declaración irónica: "cada persona que confunde correlación y causalidad termina muriendo.” Esto es una exageración humorística y un juego con el concepto de que existe una correlación 100% entre confundir estos conceptos y morir porque, en realidad, todo ser humano eventualmente muere, independientemente de su comprensión de la correlación o causalidad.
El meme general se burla de la idea de que en la ciencia de datos y el aprendizaje automático, los profesionales pueden ser propensos a cometer errores lógicos, como confundir correlación con causalidad, lo que puede llevar a conclusiones y acciones incorrectas. La progresión de las armas a los acorazados y a una escena más poderosa muestra el impacto cada vez mayor de tales errores.
gpt-4-vision-preview

A screenshot of the WildVision/vision-arena interface on Hugging Face Spaces, displaying two AI-generated explanations for a meme. The meme itself is not fully visible. The interface shows a chat window with two tabs, "Model A" and "Model B," each providing a different explanation of the meme. Model A's explanation is partially visible and mentions a man holding a gun and a ship in the background. Model B's explanation is fully visible, discussing the meme's use of images to humorously escalate the intensity of the argument about the misuse of correlation and causation in data analysis. Below the explanations are interactive voting buttons for the user to rate which model's explanation is better or if it's a tie. At the bottom, there is a "Send" button next to a grayed-out "Regenerate" button, and a "Share" button to the right. [Alt text by ALT Text Artist GPT] — Captura de pantalla de la interfaz WildVision/vision-arena en Hugging Face Spaces, que muestra dos explicaciones generadas por IA para un meme. El meme en sí no es completamente visible. La interfaz muestra una ventana de chat con dos pestañas, "Modelo A" y "Modelo B", cada una de las cuales proporciona una explicación diferente del meme. La explicación del Modelo A es parcialmente visible y menciona a un hombre sosteniendo un arma y un barco al fondo. La explicación del Modelo B es completamente visible, discutiendo el uso de imágenes por parte del meme para intensificar con humor la intensidad del argumento sobre el mal uso de la correlación y la causalidad en el análisis de datos. Debajo de las explicaciones hay botones de votación interactivos para que el usuario califique qué explicación del modelo es mejor o si hay empate. En la parte inferior, hay un botón "Enviar" junto a un botón "Regenerar" atenuado y un botón "Compartir" a la derecha. [Texto alternativo por ALT Text Artist GPT]

✍️ Si bien la interpretación del meme por parte de GPT-4V sin ningún parámetro ni "pre-prompt" (a diferencia de The Meme Erudite, que sí está cuidadosamente configurado) es coherente y lógica, como era de esperar, falló el 'Test de Turing' de humor autodepreciativo que me inventé por mi propia cordura y tranquilidad emocional como usuario intensivo de IA. La verdadera intención de este meme es burlarse de todo tipo de inteligencia y noción de aprendizaje, tanto artificial como humana. Sin embargo, GPT-4V 'decidió' incorporar creativamente la computacional y plana noción de "error", y "culpó" a los "profesionales de la IA", en lugar de mostrar cualquier minúsculo signo de simulada autoconciencia o razonamiento trascendental. Un loro tokenizador probabilístico, como todos los LLM pero, lo admito, sigue siendo el mejor.

2. Crecimiento acelerado de los árboles

😎 ¿Qué provocaría este repentino crecimiento acelerado?

A close-up photo of a person's hand holding a piece of wood with a peculiar growth pattern, shared on the subreddit r/woodworking. The wood shows dense, regular growth rings on one end, transitioning to widely spaced rings, indicating a period of sudden accelerated growth. The post is titled "Does any know what would cause this sudden accelerated growth?" and is marked with a "Help" flair. The user who posted it is "u/killerwhale_250" and the post has received 1.4k upvotes and 132 comments. [Alt text by ALT Text Artist GPT] — Foto que muestra la mano de una persona sosteniendo un trozo de madera con un patrón de crecimiento peculiar, compartida en el subreddit r/woodworking. La madera muestra anillos de crecimiento densos y regulares en un extremo, que pasan a anillos muy espaciados, lo que indica un período de crecimiento repentino y acelerado. La publicación se titula “¿Alguien sabe qué causaría este repentino crecimiento acelerado?” y está marcada con la etiqueta "Ayuda". El usuario que lo publicó es "u/killerwhale_250" y la publicación recibió 1,4 mil votos a favor y 132 comentarios. [Texto alternativo del artista de ALT Text Artist GPT]

🤖 Los patrones que ves en la madera son anillos de crecimiento, que indican el aumento anual en la circunferencia del árbol. Cada anillo normalmente representa un año de crecimiento, y las variaciones de ancho reflejan las condiciones de crecimiento durante cada año. El aumento repentino en el ancho de los anillos, al que usted se refirió como “crecimiento repentino acelerado”, podría deberse a varios factores, que a menudo incluyen:
Condiciones ambientales: un período de condiciones favorables, como un suministro abundante de agua, una temperatura ideal y una alta disponibilidad de nutrientes, puede provocar un crecimiento acelerado.
Cambio en la competencia: si los árboles o la vegetación cercanos que competían con el árbol por los recursos se eliminan o mueren, el árbol restante podría experimentar un aumento en el crecimiento debido a la menor competencia por el agua, la luz y los nutrientes.
Lesión o traumatismo: si un árbol se daña o se eliminan partes de él, podría responder aumentando su tasa de crecimiento para recuperarse.
Intervención humana: las prácticas forestales como el raleo, que elimina selectivamente algunos árboles para reducir la competencia, pueden promover el crecimiento de los árboles restantes.
Factores genéticos: algunos árboles tienen rasgos genéticos que les permiten crecer más rápidamente cuando las condiciones son adecuadas.
Es importante señalar que un anillo ancho no siempre se correlaciona con un solo año de crecimiento. En algunos casos, las condiciones favorables pueden dar lugar a múltiples oleadas de crecimiento en el mismo año, lo que lleva a la formación de “falsos anillos” que pueden aparecer como una aceleración del crecimiento. La interpretación de los anillos de los árboles para eventos de crecimiento específicos puede ser compleja y puede requerir experiencia en dendrocronología, el estudio de los anillos de los árboles, para comprender las causas exactas detrás de los patrones
observado en la madera.
gpt-4-vision-preview

✍️ Nuevamente GPT-4-Vision fue superior, pero no quiero perder la oportunidad de compartir una respuesta de Llava, que sería seria candidata para el Salón de la Fama de las Alucinaciones de LLM (junto con Batería del Microverso de Bing)… Si tal cosa existiera. Por favor, sería un gran servicio para la humanidad si alguien con suficiente alcance en las redes sociales creara esto. Preveo un crecimiento repentino y acelerado para un proyecto de este tipo, más que el de los anillos de los árboles en la imagen:

🤖 La repentina aceleración del crecimiento podría atribuirse a la imagen publicada en las redes sociales, como lo sugiere el mensaje "Publiqué esto en Instagram". La imagen muestra un trozo de madera con un anillo de árbol, que es un fenómeno natural que ocurre cuando un árbol crece y envejece. El crecimiento del anillo del árbol indica que el árbol ha experimentado cambios significativos en sus patrones de crecimiento, y la imagen ha capturado este momento. La persona que sostenía la pieza de madera podría haber querido compartir este aspecto único e interesante del crecimiento del árbol con sus seguidores en las redes sociales, lo que provocó una repentina aceleración de la visibilidad del crecimiento. 🚬 🚬 🚬
llava-v1.6-34b, dendrocronólogo social 🚬 🚬 🚬

Captura de pantalla de la interfaz WildVision/vision-arena en Hugging Face Spaces, que muestra una publicación de Reddit de r/woodworking dentro del área de chat. La publicación cuestiona la causa del crecimiento repentino y acelerado en un trozo de madera, acompañada de una fotografía de la madera con anillos de crecimiento visiblemente más anchos. Dos modelos de IA, denominados “Modelo A: gpt-4-vision-preview” y “llava-v1-6-34b”, brindan explicaciones en los paneles laterales. El modelo A sugiere cambios ambientales o la liberación de la competencia por los recursos como causas potenciales. El Modelo B sugiere con humor que la aceleración del crecimiento podría deberse a la publicación de la imagen en las redes sociales. Los botones de votación y el botón "Enviar" son visibles en la parte inferior, y la interfaz invita a los usuarios a interactuar y evaluar las explicaciones de los modelos. [Texto alternativo por ALT Text Artist GPT]

Antes de verificar las respuestas de GPT-4-V, seleccioné algunas respuestas de Reddit que esperaba que arrojaran luz sobre lo lejos que queda aún la IAG y que todavía necesitaremos depender de los humanos por un tiempo... aunque, ciertamente, no sé qué pensar. De todos modos, ¿qué sería de Reddit y las redes sociales sin la genuina curiosidad y sobreconfianza humanas?

Captura de pantalla del subreddit r/woodworking que muestra una publicación de Reddit y un comentario. La publicación, con 1,4 mil votos a favor, pregunta: "¿Alguien sabe qué causaría este crecimiento repentino y acelerado?" con una etiqueta de "Ayuda". Un usuario, LumberChop, comenta que el patrón de crecimiento podría deberse a una liberación de la competencia por la luz solar. La explicación sugiere que sin competencia, los árboles tienden a centrarse más en el crecimiento secundario, lo que da como resultado anillos de crecimiento más amplios. El comentario ha recibido 117 votos a favor. [Texto alternativo deALT Text Artist GPT]

Este ejemplo fue una buena excusa para crear un nuevo test de humor autodepreciativo...

3. Campana de gauss de la inteligencia: Llava < GPT-4V < Reddit

😎 Explica este meme:

The IQ Bell Curve meme juxtaposes a Reddit post about wood growth rings with caricatures labeled "GPT-4-V" and "REDDIT" on opposing sides of an IQ distribution graph. — Meme "IQ Bell Curve", que yuxtapone una publicación de Reddit sobre los anillos de crecimiento de la madera con caricaturas etiquetadas como "GPT-4-V" y "REDDIT" en lados opuestos de un gráfico de distribución de l cociente intelectual. [Texto alternativo deALT Text Artist GPT]

🤖 Este meme es un comentario humorístico sobre cómo diferentes entidades o comunidades podrían reaccionar ante una determinada anomalía o fenómeno inexplicable. En este caso, el fenómeno está representado por una foto de una viga de madera con un patrón de crecimiento inusual, lo que plantea la pregunta de qué podría provocar un crecimiento tan acelerado y repentino. El meme presenta tres reacciones diferentes:
“GEMINI” es representado como un personaje un tanto simplista o indiferente, ajeno a la complejidad de la cuestión.
"GPT-4-V" (probablemente refiriéndose a una versión del programa Al de OpenAl, como GPT-4) está representado con una persona pseudointelectual con gafas unidas con cinta adhesiva, lo que sugiere que esta entidad podría analizar demasiado la pregunta o plantear con una explicación compleja o demasiado técnica.
"REDDIT" se muestra como una persona con capucha, lo que probablemente representa a un usuario típico de la plataforma Reddit. El comportamiento cauteloso y misterioso del personaje podría indicar que la comunidad de Reddit se involucraría en teorías de conspiración o propondría explicaciones especulativas o sensacionalistas para la anomalía.
La imagen está superpuesta con un gráfico de curva de campana, que aparentemente representa la distribución de la inteligencia o quizás la racionalidad en las reacciones al fenómeno, con “GEMINI” y “REDDIT” en los extremos y “GPT-4-V” cerca de la inteligencia media-alta, aunque todavía exhibe cierto nivel de excentricidad. El humor radica en el estereotipo exagerado de la supuesta forma de pensar de cada actor.
gpt-4-vision-preview

Captura de pantalla de la interfaz WildVision/vision-arena en Hugging Face Spaces que muestra las explicaciones de un meme de dos modelos de IA. El meme incluye un gráfico de curva de campana con una figura en cada extremo y otra en el medio, cada una etiquetada con diferentes términos como “GEMINI” y “GPT-4-V”, y una figura central denominada “REDDIT”. [Texto alternativo de ALT Text Artist GPT]

✍️ Una vez más, GPT-4-Vision es muy superior al resto, dado que el contexto era muy limitado y básicamente buscaba "alucinaciones creativas", como en la prueba anterior. Los desafíos, por nombrar algunos, incluyen: el cambio de nombre de Google Bard a Gemini, que es muy reciente; el meme sólo puede tener pleno sentido si has leído este post; el meme de la campana de Gauss de la inteligencia es sin duda "políticamente incorrecto"...

4. ControlNet Canny y CLIP Interrogator: un ejemplo de IA multimodal

😎 Esta es una ilustración para un artículo sobre IA multimodal. Yuxtapone dos elementos independientes (fusionados en una ilustración para simplificar): 1) una 'imagen de control' creada por el modelo ControlNet Canny aplicado a una imagen de origen, y 2) un texto generado por CLIP Interrogator, una herramienta de ingeniería de prompts que produce texto a partir de una imagen de entrada. Explica el concepto de IA generativa multimodal, incorporando una referencia a los dos elementos de la ilustración (una imagen y un texto) como ejemplo práctico.

A screenshot of the WildVision/vision-arena interface on Hugging Face Spaces displaying a comparison between two AI models' interpretations. On the left side, Model A presents a line drawing of a woman in a wetsuit holding a surfboard on the beach with waves and a blue sky in the background, labeled as a "colorized photo, precisionism." Adjacent to this, the right side shows text describing an article about multimodal AI, discussing the merging of a 'control image' by the ControlNet Canny model and text by CLIP Interrogator as an example of multimodal generative AI. Below each model's output, there are options for viewers to vote on which model performed better. — Captura de pantalla de la interfaz WildVision/vision-arena en Hugging Face Spaces que muestra una comparación entre las interpretaciones de dos modelos de IA. En el lado izquierdo, el Modelo A presenta un dibujo lineal de una mujer en traje de neopreno sosteniendo una tabla de surf en la playa con olas y un cielo azul de fondo, etiquetado como “foto coloreada, precisionismo”. Junto a esto, el lado derecho muestra texto que describe un artículo sobre IA multimodal, que analiza la fusión de una "imagen de control" mediante el modelo ControlNet Canny y texto de CLIP Interrogator como ejemplo de IA generativa multimodal. Debajo del resultado de cada modelo, hay opciones para que los espectadores voten sobre qué modelo funcionó mejor. [Texto alternativo por ALT Text Artist GPT]

🤖 LA IA generativa multimodal se refiere a sistemas de inteligencia artificial que pueden procesar y generar datos en múltiples modalidades, como imágenes, texto y audio. Estos sistemas pueden combinar información de diferentes fuentes para crear resultados más complejos y diversos. Por ejemplo, un sistema de IA multimodal podría tomar una fotografía y una descripción textual de una escena y generar una ilustración coherente y más detallada que captura los elementos visuales y textuales de la escena..
CogVLM-Chat, modelo de lenguaje-visión de código abierto

IA y humanos: no somos iguales

✍️ Aunque la ilustración puede parecer sencilla y educativa para un humano (entendemos nuestro propósito de generar una imagen final combinando un boceto con una descripción de texto), resultó ser una tarea muy desafiante para todos los chatbots probados. Sólo seleccioné una breve, pero bastante coherente respuesta, de CogVLM, ya que la mayoría de los otros modelos fallaron consistentemente en interpretar el "boceto" generado por la red neuronal de ControlNet Canny como un simple artificio técnico que no tiene significado o valor por sí mismo para un ser humano: tienden a categorizar de manera simplista el boceto en blanco y negro como una 'imagen estilizada', sin interpretar que simplemente lo usamos como una forma pedagógica de ilustrar cómo funciona una IA generativa multimodal con un ejemplo sencillo: la máquina nos ayuda, combinando una imagen de entrada y un texto que no tienen valor por sí solos para crear una imagen que tiene sentido para nosotros.

Además, los LLM enfrentan un paradójico reto al afrontar cuestiones sobre inteligencia artificial. Esta paradoja podría superarse en un futuro próximo, pero el problema radica en que los datos de entrenamiento consisten abrumadoramente en texto escrito antes de que existieran o se generalizara el uso de estos modelos (lenguaje grande, texto-a-imagen, visión-lenguaje...). Por lo tanto, la capacidad de los LLM para interpretar y explicar conceptos relacionados con la IA generativa es, paradójicamente considerando que estos conceptos representan su propia "naturaleza" y existencia, bastante limitada y en clara desventaja en comparación con el contenido generado por humanos, como tutoriales y artículos. En mi opinión, ésta es una idea interesante de lo lejos que estamos de alcanzar algo parecido a la Conciencia Artificial.La paradoja reside en el hecho de que la humanidad desarrolla nuevas tecnologías más rápido de lo que nuestros modelos de aprendizaje automático pueden consolidar su conocimiento y "comprensión" de las mismas..

El nivel de abstracción que utiliza nuestro cerebro al definir e interpretar flujos de trabajo o procesos de diseño es, IMHO, diferente al de cualquier algoritmo informático conocido y demuestra que no tiene sentido la obsesión actual con comparación la IA con las personas porque…

A meme showing a person dressed in a business suit with a solemn expression. The overlaid text at the top reads, "My biases, mistakes and hallucinations are a product of free will," and at the bottom, it states, "We are not the same." The person is pointing to themselves with their right hand. The background has a muted blue hue, adding to the serious ambiance of the image. [Alt text by ALT Text Artist GPT] — Un meme que presenta al actor Giancarlo Esposito vestido con un traje de negocios y una expresión solemne. El texto superpuesto en la parte superior dice: "Mis prejuicios, errores y alucinaciones son producto del libre albedrío" y en la parte inferior dice: "No somos lo mismo". El fondo tiene un tono azul apagado, lo que contribuye al ambiente serio de la imagen.

Sí, hay opinión, prejuicios, humor e incluso ideología en la declaración hecha por este meme, y ciertamente no me importan los conceptos de especificidad, coherencia o precisión fáctica cuando lo hago... Esos son sólo algunos ejemplos. de métricas (dos de ellas son la mitad del benchmark 'SCBN' que uso en esta web) que tienen sentido para evaluar chatbots contra chatbots e IA contra IA, pero no hay una forma lógica o productiva de aplicarlos a humanos. Ésa es una de las razones por las que me gustan proyectos como el LMSYS Chatbot Arena y el WildVision Arena, porque en la idea de que las máquinas luchen contra las máquinas reside un principio fundamental que siempre debemos aplicar en nuestra relación con la IA: no somos lo mismo, por muy buena que sea la imitación, probabilística o estocástica (el enlace es a un chat de ChatGPT que pronto convertiré en una historia para este blog), lo sea.

Por cierto, aún no he probado la versión inspirada en la IA del meme 'No somos lo mismo' en ningún modelo de lenguaje visual o chatbot, así que quizá quieras probarlo tú.

Modelos visión-lenguaje: batalla de chatbots SCBN

Para concluir, aquí está mi puramente Juicio humano, sesgado y subjetivo de los chatbots multimodales., basado en mis cuatro pruebas en WildVision Arena:

Batalla de chatbots: Vision Arena

Chatbot	Ranking (SCBN)	Especificidad	Coherencia	Brevedad	Novedad	Enlace
GPT-4V	🥇 Ganador	🤖🤖🕹️	🤖🤖🤖	🤖🤖🕹️	🤖🤖🕹️	Modelo
CogVLM	🥈 Subcampeón	🤖🤖🕹️	🤖🕹️🕹️	🤖🤖🤖	🤖🤖🕹️	Modelo
Llava	🥉 Contendiente	🤖🕹️🕹️	🤖🕹️🕹️	🤖🤖🕹️	🤖🕹️🕹️	Modelo
Gemini		🕹️🕹️🕹️	🕹️🕹️🕹️	🤖🤖🕹️	🤖🕹️🕹️	Modelo

WildVision Arena y la batalla de la IA multimodal: No Somos lo Mismo