OpenAI acaba de lanzar sus modelos o1. o1 agrega un nuevo nivel de complejidad a la arquitectura tradicional de los LLM, una cadena de pensamiento (CoT) de cero disparos. Comparto mis primeras impresiones sobre o1 en el estilo característico de este sitio web: hablar con chatbots, obtener sus respuestas, publicar todo.

A continuación se muestra el cuaderno que presenté (con retraso) para la competencia LMSYS – Chatbot Arena Human Preference Predictions en Kaggle. Este cuaderno aplica técnicas de procesamiento del lenguaje natural para clasificar texto con bibliotecas populares de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. El cuaderno presenta la primera versión estandarizada de las puntuaciones cuantitativas SCBN (especificidad, coherencia, brevedad, novedad) para evaluar el rendimiento de la respuesta del chatbot. Además, presenté un nuevo punto de referencia para clasificar indicaciones llamado RQTL (solicitud vs. pregunta, prueba vs. aprendizaje), que tiene como objetivo refinar las predicciones de elección humana y proporcionar contexto para las puntuaciones SCBN basadas en la intención del usuario inferida.

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL Leer más »

El parámetro SCBN (especificidad, coherencia, brevedad y novedad) es un método para evaluar la calidad de los resultados de los modelos de lenguaje y los chatbots. SCBN proporciona una forma clara y sistemática de comparar y evaluar las respuestas de los chatbots en función de cuatro métricas principales.

– Especificidad (S): evalúa si la respuesta de un chatbot está directamente relacionada con la solicitud del usuario. Comprueba con qué precisión la respuesta aborda la solicitud sin desviarse del tema.
– Coherencia (C): mide la estructura lógica de la respuesta. Garantiza que la información contenida en la respuesta se presente de forma clara y organizada, facilitando su comprensión por parte del usuario.