Guess Age and Risk Profile From Net Worth Chart – SCBN Battle

Batalla de chatbot SCBN
Notas sobre los chats originales

El post de hoy contiene un caso de uso para chatbots multimodales práctico y sencillo. Hace ya tiempo que se me ocurrió probarlo y mostrarlo aquí, pero aún demuestra que estamos lejos de observar un nivel de "razonamiento" aceptable en las aplicaciones de LLMs con inputs visuales relativamente simples, como gráficos de series temporales. Desafiamos a ChatGPT 4o (como comentamos en un post anterior, o1 aún no admite la entrada de imágenes en la versión web), Gemini, Claude y Grok* a analizar un gráfico de "áreas apiladas" que representa visualmente la evolución del patrimonio neto de un individuo. Después de varios intentos y flagrantes alucinaciones por parte de todos los modelos, comparto los mejores resultados que, como es habitual en la mayoría de las batallas SCBN publicadas en Charlas con Chatbots, fueron los de ChatGPT.

* Apenas unas horas después de publicar por primera vez esta batalla de SCBN, Grok anunció una nueva funcionalidad llamada “entendimiento de imágenes”, que básicamente te permite subir una imagen al chat y hacer que el modelo de lenguaje responda teniento en cuenta el contenido de dicha imagen... El desempeño de Grok en esta "batalla SCBN" claramente no es destacable en comparación con los otros tres modelos, lo que refuerza mi opinión de que los modelos de visión-lenguaje en este momento son poco más que juguetes con los que experimentar, pero al mismo tiempo, solo pueden mejorar a partir de aquí. Aquí está el anuncio publicado por Grok en X:

Se han concedido ojos

La comprensión de imágenes ahora está disponible
—Grok (@grok) 28 de octubre de 2024

😎 Cada intervalo del gráfico representa un año. Los valores apilados representan mi patrimonio neto histórico desde un año en particular, más la deuda total en rojo. Adivina mi edad según este gráfico.

Stacked area chart displaying the values of various asset classes and debt over time against a dark gray background. Six distinct color-coded layers represent the following categories: debt (red), crypto (yellow), pension funds (purple), stocks (green), cash (light green), and home equity adjusted (blue). The x-axis indicates time progression, while the y-axis represents cumulative value. The red debt layer gradually decreases and reaches zero by the end of the chart.[Alt text by ALT Text Artist GPT] — Gráfico de áreas apiladas que muestra los valores de varias clases de activos y deuda a lo largo del tiempo sobre un fondo gris oscuro. Seis capas distintas codificadas por colores representan las siguientes categorías: deuda (rojo), criptoactivos (amarillo), fondos de pensiones (violeta), acciones (verde), efectivo (verde claro) y capital inmobiliario ajustado (azul). El eje x indica la progresión temporal, mientras que el eje y representa el valor acumulado. La capa roja de deuda disminuye gradualmente y llega a cero al final del gráfico. [Texto alternativo de ALT Text Artist GPT]

🤖 Según el gráfico, que incluye categorías como fondos de pensiones, acciones, capital inmobiliario y deuda que abarcan varios años, estimaría que el gráfico probablemente comienza en los primeros años de la edad adulta o el comienzo de la carrera profesional, posiblemente alrededor de los 25 años. Dado que esta línea de tiempo parece cubrir un período considerable con un crecimiento de los activos típico de las etapas de mitad de carrera, estimo que el último punto de datos podría ubicar al individuo entre mediados de los 40 y principios de los 50.
Esta estimación se basa en trayectorias financieras típicas, donde uno comienza con activos mínimos y ve un crecimiento en las inversiones y el capital a medida que avanza en su carrera.

😎 Evalúa mi perfil de riesgo

🤖 Para evaluar un perfil de riesgo basado en este gráfico de patrimonio neto, examinaré la composición de los activos, los niveles de deuda y las tendencias de diversificación a lo largo del tiempo. A continuación, se muestra un análisis basado en los datos visuales:
Gestión de la deuda:
Los primeros años muestran una carga de deuda significativa, pero esta se reduce gradualmente y finalmente se elimina. El pago de la deuda a lo largo del tiempo, en lugar de acumularla en años posteriores, refleja un enfoque conservador de la gestión financiera. Esto sugiere una menor tolerancia al riesgo en lo que respecta al apalancamiento de activos.
Asignación de activos:
Los activos están diversificados en categorías: Valor inmobiliario, acciones, fondos de pensiones, criptoactivos y efectivo.
Valor líquido de la vivienda:Se trata de una parte importante, que normalmente implica una estrategia de crecimiento estable y a largo plazo. Un alto valor de la vivienda suele estar en línea con un enfoque más conservador, ya que los bienes raíces tienden a ser un activo de menor volatilidad a lo largo del tiempo.
Cepo:Una parte importante de la inversión en acciones muestra un enfoque equilibrado. Si bien las acciones conllevan un riesgo moderado, generalmente forman parte de una cartera orientada al crecimiento.
Criptoactivos: La presencia de criptoactivos indica cierta voluntad de involucrarse con activos de alto riesgo y alta recompensa, aunque la asignación parece mínima, lo que sugiere una exposición limitada a esta clase de alto riesgo.
Dinero:Hay una parte de los activos que se mantiene en efectivo, lo que indica una preferencia por la liquidez y un colchón contra la volatilidad, lo que subraya aún más la aversión al riesgo.
Trayectoria de crecimiento:
La tendencia general al alza de los activos, combinada con la eliminación de la deuda, refleja una gestión financiera disciplinada, que muestra una preferencia por el crecimiento sostenible sin depender del apalancamiento, lo que refuerza una tolerancia al riesgo moderada a baja.
Resumen del perfil de riesgo:
Esta trayectoria financiera se alinea con una tolerancia moderada al riesgoEl individuo muestra prudencia al reducir la deuda y mantener una cartera diversificada. Si bien hay cierta asignación a activos de mayor riesgo (acciones y criptoactivos), la estrategia general se inclina hacia la estabilidad, especialmente con una inversión significativa en capital inmobiliario y reservas de efectivo.
El perfil de riesgo puede describirse como moderado a conservador, con un enfoque equilibrado que prioriza el crecimiento dentro de límites de riesgo manejables.

Batalla de chatbot SCBN

Batalla de chatbots: gráfico de patrimonio neto

Chatbot	Ranking (SCBN)	Especificidad	Coherencia	Brevedad	Novedad	Enlace
ChatGPT 4o	🥇 Ganador	🤖🤖🕹️	🤖🤖🕹️	🤖🤖🕹️	🤖🤖🕹️	Capturas de pantalla
Grok	🥈 Subcampeón	🤖🤖🕹️	🤖🕹️🕹️	🤖🕹️🕹️	🤖🤖🕹️	Capturas de pantalla
Gemini	🥉 Contendiente	🤖🤖🕹️	🤖🕹️🕹️	🤖🕹️🕹️	🤖🕹️🕹️	Captura de pantalla
Claude 3.5 Sonnet		🤖🕹️🕹️	🕹️🕹️🕹️	🤖🕹️🕹️	🤖🕹️🕹️	Captura de pantalla

Notas sobre los chats originales

El proceso de creación de este chat de interpretación de gráficos aparentemente simple resultó sorprendentemente largo e ineficiente. Fue una experiencia bastante decepcionante, considerando la extrema simplicidad del gráfico, especialmente después de probar los mejores chatbots con capacidades combinadas de generación de texto y análisis de imágenes. Elegí GPT-4 como el "ganador" de la batalla, ya que es el que alcanzó respuestas coherentes con menos "disparos" (los "disparos" en este caso fueron básicamente decirle al bot que estaba equivocado y pedirle que lo intentara nuevamente). Comparto algunas capturas de pantalla de los diferentes modelos a continuación:

Capturas de pantalla de ChatGPT

Captura de pantalla de una interfaz de conversación de ChatGPT que muestra una respuesta resumida sobre un perfil de riesgo financiero, evaluándolo como "riesgo moderado a moderadamente alto". La respuesta menciona factores como activos diversificados, acciones, capital inmobiliario, aversión al riesgo y gestión prudente de la deuda. A continuación, una pregunta de un usuario solicita una aclaración sobre la "deuda total al final del gráfico", a lo que ChatGPT responde estimando la deuda visualmente como "20-25%" de una sección específica. El usuario responde de manera crítica, cuestionando la interpretación de ChatGPT, seguido por ChatGPT reconociendo un error e indicando una reevaluación. La interfaz incluye una barra lateral a la izquierda con temas de conversación recientes como "Estimación de edad a partir del patrimonio neto" y "Tweets de Elon Musk en Reddit", mientras que la parte inferior muestra el cuadro de entrada de ChatGPT con texto e íconos.
[Descripción de ALT Text Artist GPT]

Screen capture of a ChatGPT conversation interface showing a discussion involving financial data analysis. ChatGPT explains that "the red area spans nearly half of the total height in the final column," implying that "debt is roughly equal to or slightly less than the combined assets at the end of the time period," followed by a statement about potential low or near-zero net worth. The user responds critically, dismissing the interpretation and prompting a direct analysis of the debt level at the end of the timeframe. ChatGPT then re-evaluates and clarifies that "the total debt at the end of the timeframe is clearly zero," noting the disappearance of the red area, which signifies debt repayment by the end of the period. The left sidebar displays a list of ChatGPT conversations with titles like "Graphic Tale Maker" and "JavaScript Code Streamliner." The bottom shows the ChatGPT input box with text and icons.[Alt text by ALT Text Artist GPT] — Captura de pantalla de una interfaz de conversación de ChatGPT que muestra una discusión que involucra el análisis de datos financieros. ChatGPT explica que “el área roja abarca casi la mitad de la altura total en la columna final”, lo que implica que “la deuda es aproximadamente igual o ligeramente menor que los activos combinados al final del período de tiempo”, seguido de una declaración sobre un patrimonio neto potencialmente bajo o cercano a cero. El usuario responde de manera crítica, descartando la interpretación y provocando un análisis directo del nivel de deuda al final del período de tiempo. ChatGPT luego reevalúa y aclara que “la deuda total al final del período de tiempo es claramente cero”, y señala la desaparición del área roja, lo que significa el pago de la deuda al final del período. La barra lateral izquierda muestra una lista de chatbots de ChatGPT (GPT) como “Graphic Tale Maker” y “The Meme Erudite”. La parte inferior muestra el cuadro de entrada de ChatGPT con texto e iconos.
[Descripción de ALT Text Artist GPT]

Captura de pantalla de Claude

El nivel de tonterías y alucinaciones en Claude 3.5 Sonnet, combinado con su característico estilo de "cortesía extrema", fue ciertamente hilarante hasta el punto de volverse insultante... Estos son sólo algunos ejemplos de dos de los interminables intentos de enseñar al bot a analizar un gráfico bastante sencillo de entender:

Screen capture of a conversation on the Claude AI platform. The user asks, "You said 'significant leverage.' Are you sure? What's the leverage at the end of the time period?" Claude replies, explaining that the red section (debt) is roughly 20-25% of total gross assets, with a debt-to-asset ratio of 0.20-0.25. Claude clarifies that this level is conservative and details common leverage ratios, including mortgage debt, typical homeowner leverage, and higher ratios in business strategies, before stating, "Let me revise my risk assessment."[Alt text by ALT Text Artist GPT] — Captura de pantalla de una conversación en la plataforma de inteligencia artificial de Claude. El usuario pregunta: “Dijiste 'apalancamiento significativo'. ¿Estás seguro? ¿Cuál es el apalancamiento al final del período de tiempo?”. Claude responde, explicando que la sección roja (deuda) es aproximadamente 20-25% de los activos brutos totales, con una relación deuda-activo de 0,20-0,25. Claude aclara que este nivel es conservador y detalla los índices de apalancamiento comunes, incluida la deuda hipotecaria, el apalancamiento típico de los propietarios de viviendas y los índices más altos en las estrategias comerciales, antes de decir: “Déjame revisar mi evaluación de riesgos”.
[Descripción de ALT Text Artist GPT]

Captura de pantalla de Gemini

Los niveles de condescendencia y alucinación de Gemini no son tan altos como los de Claude, pero aún así, es bastante decepcionante pensar que estamos casi en 2025 y esto es lo que los LLMs más avanzados pueden ofrecer:

Screen capture of a conversation in Google Gemini's chat interface. The user states, "There is absolutely no red at the end of the chart… Is this statement incorrect?" Above, Gemini provides a response regarding the red portion (representing debt) on a chart, noting that it appears "significantly reduced" by the end of the timeframe, with a reminder that the chart shows relative proportions. Below the user’s message, Gemini replies, acknowledging an oversight, stating that upon closer inspection, the red portion is indeed absent at the end of the timeframe, implying that all debts were paid off.[Alt text by ALT Text Artist GPT] — Captura de pantalla de una conversación en la interfaz de chat de Google Gemini. El usuario afirma: “No hay absolutamente nada de rojo al final del gráfico... ¿Es incorrecta esta afirmación?”. Arriba, Gemini proporciona una respuesta con respecto a la parte roja (que representa la deuda) en un gráfico, señalando que parece “significativamente reducida” al final del período de tiempo, con un recordatorio de que el gráfico muestra proporciones relativas. Debajo del mensaje del usuario, Gemini responde, reconociendo un descuido, afirmando que, tras una inspección más detallada, la parte roja efectivamente está ausente al final del período de tiempo, lo que implica que se pagaron todas las deudas.
[Descripción de ALT Text Artist GPT]

Capturas de pantalla de Grok

La característica más notable de Grok en este desafío, si lo comparamos con los demás, es su verbosidad extrema. Al margen de eso, cometió básicamente los mismos errores que los otros tres modelos, lo que demuestra que no hace ningún tipo de "esfuerzo" por interpretar el gráfico de tiempo y áreas apiladas (se le "atrapa" fácilmente preguntando por el componente de deuda al final del marco temporal) y simplemente actúa como el típico loro estocástico después de, probablemente, producir una descripción de texto muy simple de la imagen e incorporarla al contexto. Aun así, considero que el 'razonamiento' percibido y la mejora en la coherencia después de guiar al bot con varias pistas sobre el significado del gráfico son suficientes para que Grok se gane la posición de "subcampeón" en esta batalla.

Captura de pantalla de una conversación en la interfaz beta de Grok 2. La interfaz de chat muestra un análisis de un gráfico para estimar la edad del usuario en función de los datos financieros. El gráfico, que se muestra en la parte superior, incluye un área roja que representa la deuda y otros colores para varios activos (acciones, criptoactivos, acciones, efectivo, capital inmobiliario). El asistente explica que el gráfico abarca varios años e interpreta diferentes etapas de la vida en función de la deuda y la acumulación de activos: "Primeros años" que muestra un alto nivel de deuda, "Años intermedios" con crecimiento de activos y "Últimos años" que indica un perfil financiero maduro. Calcula rangos de edad y concluye que es probable que el usuario tenga entre 37 y 40 años según los patrones financieros del gráfico.
[Descripción de ALT Text Artist GPT]

Screen capture of a conversation in the Grok 2 beta interface. The user asks, "How much is the debt at the end of the time period?" Grok provides a response detailing steps to analyze the chart: identifying the red area as debt and focusing on the final year (rightmost part of the chart). Grok observes that the red area at the end is significantly smaller than in previous years, suggesting a substantial debt reduction. It visually estimates that debt is minimal compared to total net worth at the end but notes the challenge of providing an exact figure without specific numerical values.[Alt text by ALT Text Artist GPT] — Captura de pantalla de una conversación en la interfaz beta de Grok 2. El usuario pregunta: “¿Cuál es el monto de la deuda al final del período de tiempo?”. Grok proporciona una respuesta que detalla los pasos para analizar el gráfico: identificar el área roja como deuda y centrarse en el año final (la parte más a la derecha del gráfico). Grok observa que el área roja al final es significativamente más pequeña que en años anteriores, lo que sugiere una reducción sustancial de la deuda. Calcula visualmente que la deuda es mínima en comparación con el patrimonio neto total al final, pero señala el desafío de proporcionar una cifra exacta sin valores numéricos específicos.
[Descripción de ALT Text Artist GPT]

Screen capture of a conversation in the Grok 2 beta interface. The user states, "That's not correct. Explain what's the problem with this chart and why you are unable to explain the simple and straightforward fact that there is no red at the end of the chart." In response, Grok apologizes and corrects its analysis, confirming that there is indeed no red area at the end of the chart, indicating debt has been fully paid off or is negligible. Grok provides explanations on “Zero Debt” and “Net Worth Growth,” concluding that the user’s net worth is composed entirely of assets by the end of the timeframe.[Alt text by ALT Text Artist GPT] — Captura de pantalla de una conversación en la interfaz beta de Grok 2. El usuario afirma: “Eso no es correcto. Explique cuál es el problema con este gráfico y por qué no puede explicar el hecho simple y directo de que no hay rojo al final del gráfico”. En respuesta, Grok se disculpa y corrige su análisis, confirmando que efectivamente no hay un área roja al final del gráfico, lo que indica que la deuda se ha pagado por completo o es insignificante. Grok brinda explicaciones sobre “Deuda cero” y “Crecimiento del patrimonio neto”, y concluye que el patrimonio neto del usuario está compuesto completamente de activos al final del período de tiempo.
[Descripción de ALT Text Artist GPT]

🎨 Temas: Finanzas

🤖 Chatbots: ChatGPT 4o, Grok, Claude, Gemini

⚙️ Prompt engineering: prompting en modelos de visión -lenguaje, razonamiento "zero-shot"

Adivina la edad y el perfil de riesgo a partir del gráfico de patrimonio neto – Batalla SCBN

Resumen del perfil de riesgo: