scbn | Talking to Chatbots

Adivina la edad y el perfil de riesgo a partir del gráfico de patrimonio neto – Batalla SCBN

Etiquetado con AI, chatbots, crypto, data science, finance, Generative AI, investing, multimodal AI, scbn, Vision Models, wealth Última actualización 30 de enero de 2025

El artículo de hoy contiene un caso práctico y sencillo de uso de chatbots multimodales que he querido probar y mostrar aquí durante bastante tiempo, pero que aún demuestra que estamos lejos de esperar un "razonamiento" confiable de las herramientas LLM al incorporar incluso elementos visuales bastante rudimentarios como gráficos de series temporales. Desafié a ChatGPT 4o (como se discutió en un artículo anterior, o1 en la aplicación web aún no admite la entrada de imágenes), Gemini y Claude para analizar un gráfico de áreas apiladas que represente visualmente la evolución del patrimonio neto de un individuo. Después de varios intentos y alucinaciones flagrantes de todos los modelos, comparto los mejores resultados que, como es habitual en la mayoría de las batallas de SCBN publicadas en Talking to Chatbots, fueron los de ChatGPT.

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL

Predicting LMSYS Chatbot Arena Votes With the SCBN and RQTL Benchmarks

Etiquetado con AI, chatbots, coding, data science, python, scbn Última actualización 3 de diciembre de 2024

A continuación se muestra el cuaderno que presenté (con retraso) al concurso LMSYS – Chatbot Arena Human Preference Predictions en Kaggle. Este cuaderno aplica técnicas de PLN para clasificar texto con bibliotecas populares de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. El cuaderno presenta la primera versión estandarizada de las puntuaciones cuantitativas SCBN (Especificidad, Coherencia, Brevedad, Novedad) para evaluar el rendimiento de las respuestas de los chatbots. Además, presenté un nuevo punto de referencia para clasificar indicaciones llamado RQTL (Solicitud vs. Pregunta, Prueba vs. Aprendizaje), cuyo objetivo es refinar las predicciones de las elecciones humanas y contextualizar las puntuaciones SCBN según la intención inferida del usuario. Puede consultar todo el código, las anotaciones y los gráficos en el widget de Kaggle a continuación. Explore y ejecute el cuaderno…

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL Leer más »

¿Es la filosofía una ciencia? Introducción a las batallas de chatbots SCBN

Is Philosophy a Science? Introducing SCBN Chatbot Battles

Etiquetado con chatbots, coding, philosophy, scbn, science Última actualización 9 de octubre de 2024

El parámetro SCBN (especificidad, coherencia, brevedad y novedad) es un método para evaluar la calidad de los resultados de los modelos de lenguaje y los chatbots. SCBN proporciona una forma clara y sistemática de comparar y evaluar las respuestas de los chatbots en función de cuatro métricas principales.

– Especificidad (S): evalúa si la respuesta de un chatbot está directamente relacionada con la solicitud del usuario. Comprueba con qué precisión la respuesta aborda la solicitud sin desviarse del tema.
– Coherencia (C): mide la estructura lógica de la respuesta. Garantiza que la información contenida en la respuesta se presente de forma clara y organizada, facilitando su comprensión por parte del usuario.

Etiqueta: scbn

Adivina la edad y el perfil de riesgo a partir del gráfico de patrimonio neto – Batalla SCBN

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL

¿Es la filosofía una ciencia? Introducción a las batallas de chatbots SCBN