El artículo de hoy contiene un caso práctico y sencillo de uso de chatbots multimodales que he querido probar y mostrar aquí durante bastante tiempo, pero que aún demuestra que estamos lejos de esperar un "razonamiento" confiable de las herramientas LLM al incorporar incluso elementos visuales bastante rudimentarios como gráficos de series temporales. Desafié a ChatGPT 4o (como se discutió en un artículo anterior, o1 en la aplicación web aún no admite la entrada de imágenes), Gemini y Claude para analizar un gráfico de áreas apiladas que represente visualmente la evolución del patrimonio neto de un individuo. Después de varios intentos y alucinaciones flagrantes de todos los modelos, comparto los mejores resultados que, como es habitual en la mayoría de las batallas de SCBN publicadas en Talking to Chatbots, fueron los de ChatGPT.

A continuación se muestra el cuaderno que presenté (con retraso) al concurso LMSYS – Chatbot Arena Human Preference Predictions en Kaggle. Este cuaderno aplica técnicas de PLN para clasificar texto con bibliotecas populares de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. El cuaderno presenta la primera versión estandarizada de las puntuaciones cuantitativas SCBN (Especificidad, Coherencia, Brevedad, Novedad) para evaluar el rendimiento de las respuestas de los chatbots. Además, presenté un nuevo punto de referencia para clasificar indicaciones llamado RQTL (Solicitud vs. Pregunta, Prueba vs. Aprendizaje), cuyo objetivo es refinar las predicciones de las elecciones humanas y contextualizar las puntuaciones SCBN según la intención inferida del usuario. Puede consultar todo el código, las anotaciones y los gráficos en el widget de Kaggle a continuación. Explore y ejecute el cuaderno…

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL Leer más »

Presentamos una nueva sección en "Conversando con Chatbots: Contratación de Chatbots". En esta serie de charlas, realizaremos entrevistas de trabajo con chatbots (ya sea una versión estándar de los LLM más populares o un GPT o Personaje personalizado) y los haremos competir por el puesto. El chatbot con la mejor respuesta a nuestra pregunta gana y se publica. El resto de las respuestas se listarán, clasificarán y compartirán en una tabla de batalla de chatbots exclusiva de SCBN. Con las puntuaciones de SCBN, valoro el cumplimiento de mis instrucciones (el juego de roles es importante en este caso, algo que la mayoría de los chatbots no hacen). ¿Eres gerente de contratación o empleado de RR. HH. y alguna vez te has preguntado si la IA reemplazaría...?

Entrevistas a chatbots: las lámparas de lava de Cloudflare Leer más »