El artículo de hoy contiene un caso práctico y sencillo de uso de chatbots multimodales que he querido probar y mostrar aquí durante bastante tiempo, pero que aún demuestra que estamos lejos de esperar un "razonamiento" confiable de las herramientas LLM al incorporar incluso elementos visuales bastante rudimentarios como gráficos de series temporales. Desafié a ChatGPT 4o (como se discutió en un artículo anterior, o1 en la aplicación web aún no admite la entrada de imágenes), Gemini y Claude para analizar un gráfico de áreas apiladas que represente visualmente la evolución del patrimonio neto de un individuo. Después de varios intentos y alucinaciones flagrantes de todos los modelos, comparto los mejores resultados que, como es habitual en la mayoría de las batallas de SCBN publicadas en Talking to Chatbots, fueron los de ChatGPT.

A continuación se muestra el cuaderno que presenté (con retraso) para la competencia LMSYS – Chatbot Arena Human Preference Predictions en Kaggle. Este cuaderno aplica técnicas de procesamiento del lenguaje natural para clasificar texto con bibliotecas populares de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. El cuaderno presenta la primera versión estandarizada de las puntuaciones cuantitativas SCBN (especificidad, coherencia, brevedad, novedad) para evaluar el rendimiento de la respuesta del chatbot. Además, presenté un nuevo punto de referencia para clasificar indicaciones llamado RQTL (solicitud vs. pregunta, prueba vs. aprendizaje), que tiene como objetivo refinar las predicciones de elección humana y proporcionar contexto para las puntuaciones SCBN basadas en la intención del usuario inferida.

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL Leer más »

El parámetro SCBN (especificidad, coherencia, brevedad y novedad) es un método para evaluar la calidad de los resultados de los modelos de lenguaje y los chatbots. SCBN proporciona una forma clara y sistemática de comparar y evaluar las respuestas de los chatbots en función de cuatro métricas principales.

– Especificidad (S): evalúa si la respuesta de un chatbot está directamente relacionada con la solicitud del usuario. Comprueba con qué precisión la respuesta aborda la solicitud sin desviarse del tema.
– Coherencia (C): mide la estructura lógica de la respuesta. Garantiza que la información contenida en la respuesta se presente de forma clara y organizada, facilitando su comprensión por parte del usuario.