Adivina la edad y el perfil de riesgo a partir del gráfico de patrimonio neto – Batalla SCBN
El post de hoy contiene un caso de uso para chatbots multimodales práctico y sencillo. Hace ya tiempo que se me ocurrió probarlo y mostrarlo aquí, pero aún demuestra que estamos lejos de observar un nivel de "razonamiento" aceptable en las aplicaciones de LLMs con inputs visuales relativamente simples, como gráficos de series temporales. Desafiamos a ChatGPT 4o (como comentamos en un post anterior, o1 aún no admite la entrada de imágenes en la versión web), Gemini, Claude y Grok* a analizar un gráfico de "áreas apiladas" que representa visualmente la evolución del patrimonio neto de un individuo. Después de varios intentos y flagrantes alucinaciones por parte de todos los modelos, comparto los mejores resultados que, como es habitual en la mayoría de las batallas SCBN publicadas en Charlas con Chatbots, fueron los de ChatGPT.
* Apenas unas horas después de publicar por primera vez esta batalla de SCBN, Grok anunció una nueva funcionalidad llamada “entendimiento de imágenes”, que básicamente te permite subir una imagen al chat y hacer que el modelo de lenguaje responda teniento en cuenta el contenido de dicha imagen... El desempeño de Grok en esta "batalla SCBN" claramente no es destacable en comparación con los otros tres modelos, lo que refuerza mi opinión de que los modelos de visión-lenguaje en este momento son poco más que juguetes con los que experimentar, pero al mismo tiempo, solo pueden mejorar a partir de aquí. Aquí está el anuncio publicado por Grok en X:
Se han concedido ojos
—Grok (@grok) 28 de octubre de 2024
La comprensión de imágenes ahora está disponible
😎 Cada intervalo del gráfico representa un año. Los valores apilados representan mi patrimonio neto histórico desde un año en particular, más la deuda total en rojo. Adivina mi edad según este gráfico.
🤖 Según el gráfico, que incluye categorías como fondos de pensiones, acciones, capital inmobiliario y deuda que abarcan varios años, estimaría que el gráfico probablemente comienza en los primeros años de la edad adulta o el comienzo de la carrera profesional, posiblemente alrededor de los 25 años. Dado que esta línea de tiempo parece cubrir un período considerable con un crecimiento de los activos típico de las etapas de mitad de carrera, estimo que el último punto de datos podría ubicar al individuo entre mediados de los 40 y principios de los 50.
Esta estimación se basa en trayectorias financieras típicas, donde uno comienza con activos mínimos y ve un crecimiento en las inversiones y el capital a medida que avanza en su carrera.
😎 Evalúa mi perfil de riesgo
🤖 Para evaluar un perfil de riesgo basado en este gráfico de patrimonio neto, examinaré la composición de los activos, los niveles de deuda y las tendencias de diversificación a lo largo del tiempo. A continuación, se muestra un análisis basado en los datos visuales:
Gestión de la deuda:
- Los primeros años muestran una carga de deuda significativa, pero esta se reduce gradualmente y finalmente se elimina. El pago de la deuda a lo largo del tiempo, en lugar de acumularla en años posteriores, refleja un enfoque conservador de la gestión financiera. Esto sugiere una menor tolerancia al riesgo en lo que respecta al apalancamiento de activos.
Asignación de activos:
- Los activos están diversificados en categorías: Valor inmobiliario, acciones, fondos de pensiones, criptoactivos y efectivo.
- Valor líquido de la vivienda:Se trata de una parte importante, que normalmente implica una estrategia de crecimiento estable y a largo plazo. Un alto valor de la vivienda suele estar en línea con un enfoque más conservador, ya que los bienes raíces tienden a ser un activo de menor volatilidad a lo largo del tiempo.
- Cepo:Una parte importante de la inversión en acciones muestra un enfoque equilibrado. Si bien las acciones conllevan un riesgo moderado, generalmente forman parte de una cartera orientada al crecimiento.
- Criptoactivos: La presencia de criptoactivos indica cierta voluntad de involucrarse con activos de alto riesgo y alta recompensa, aunque la asignación parece mínima, lo que sugiere una exposición limitada a esta clase de alto riesgo.
- Dinero:Hay una parte de los activos que se mantiene en efectivo, lo que indica una preferencia por la liquidez y un colchón contra la volatilidad, lo que subraya aún más la aversión al riesgo.
Trayectoria de crecimiento:
- La tendencia general al alza de los activos, combinada con la eliminación de la deuda, refleja una gestión financiera disciplinada, que muestra una preferencia por el crecimiento sostenible sin depender del apalancamiento, lo que refuerza una tolerancia al riesgo moderada a baja.
Resumen del perfil de riesgo:
Esta trayectoria financiera se alinea con una tolerancia moderada al riesgoEl individuo muestra prudencia al reducir la deuda y mantener una cartera diversificada. Si bien hay cierta asignación a activos de mayor riesgo (acciones y criptoactivos), la estrategia general se inclina hacia la estabilidad, especialmente con una inversión significativa en capital inmobiliario y reservas de efectivo.
El perfil de riesgo puede describirse como moderado a conservador, con un enfoque equilibrado que prioriza el crecimiento dentro de límites de riesgo manejables.
Batalla de chatbot SCBN
Batalla de chatbots: gráfico de patrimonio neto
Chatbot | Ranking (SCBN) | Especificidad | Coherencia | Brevedad | Novedad | Enlace |
---|---|---|---|---|---|---|
ChatGPT 4o | 🥇 Ganador | 🤖🤖🕹️ | 🤖🤖🕹️ | 🤖🤖🕹️ | 🤖🤖🕹️ | Capturas de pantalla |
Grok | 🥈 Subcampeón | 🤖🤖🕹️ | 🤖🕹️🕹️ | 🤖🕹️🕹️ | 🤖🤖🕹️ | Capturas de pantalla |
Gemini | 🥉 Contendiente | 🤖🤖🕹️ | 🤖🕹️🕹️ | 🤖🕹️🕹️ | 🤖🕹️🕹️ | Captura de pantalla |
Claude 3.5 Sonnet | 🤖🕹️🕹️ | 🕹️🕹️🕹️ | 🤖🕹️🕹️ | 🤖🕹️🕹️ | Captura de pantalla |
Notas sobre los chats originales
El proceso de creación de este chat de interpretación de gráficos aparentemente simple resultó sorprendentemente largo e ineficiente. Fue una experiencia bastante decepcionante, considerando la extrema simplicidad del gráfico, especialmente después de probar los mejores chatbots con capacidades combinadas de generación de texto y análisis de imágenes. Elegí GPT-4 como el "ganador" de la batalla, ya que es el que alcanzó respuestas coherentes con menos "disparos" (los "disparos" en este caso fueron básicamente decirle al bot que estaba equivocado y pedirle que lo intentara nuevamente). Comparto algunas capturas de pantalla de los diferentes modelos a continuación:
Capturas de pantalla de ChatGPT
Captura de pantalla de Claude
El nivel de tonterías y alucinaciones en Claude 3.5 Sonnet, combinado con su característico estilo de "cortesía extrema", fue ciertamente hilarante hasta el punto de volverse insultante... Estos son sólo algunos ejemplos de dos de los interminables intentos de enseñar al bot a analizar un gráfico bastante sencillo de entender:
Captura de pantalla de Gemini
Los niveles de condescendencia y alucinación de Gemini no son tan altos como los de Claude, pero aún así, es bastante decepcionante pensar que estamos casi en 2025 y esto es lo que los LLMs más avanzados pueden ofrecer:
Capturas de pantalla de Grok
La característica más notable de Grok en este desafío, si lo comparamos con los demás, es su verbosidad extrema. Al margen de eso, cometió básicamente los mismos errores que los otros tres modelos, lo que demuestra que no hace ningún tipo de "esfuerzo" por interpretar el gráfico de tiempo y áreas apiladas (se le "atrapa" fácilmente preguntando por el componente de deuda al final del marco temporal) y simplemente actúa como el típico loro estocástico después de, probablemente, producir una descripción de texto muy simple de la imagen e incorporarla al contexto. Aun así, considero que el 'razonamiento' percibido y la mejora en la coherencia después de guiar al bot con varias pistas sobre el significado del gráfico son suficientes para que Grok se gane la posición de "subcampeón" en esta batalla.
🎨 Temas: Finanzas
🤖 Chatbots: ChatGPT 4o, Grok, Claude, Gemini
⚙️ Prompt engineering: prompting en modelos de visión -lenguaje, razonamiento "zero-shot"
Deja una respuesta