OpenAI acaba de lanzar sus modelos o1. o1 agrega un nuevo nivel de complejidad a la arquitectura tradicional de los LLM, una cadena de pensamiento (CoT) de cero disparos. Comparto mis primeras impresiones sobre o1 en el estilo característico de este sitio web: hablar con chatbots, obtener sus respuestas, publicar todo.

A continuación se muestra el cuaderno que presenté (con retraso) al concurso LMSYS – Chatbot Arena Human Preference Predictions en Kaggle. Este cuaderno aplica técnicas de PLN para clasificar texto con bibliotecas populares de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. El cuaderno presenta la primera versión estandarizada de las puntuaciones cuantitativas SCBN (Especificidad, Coherencia, Brevedad, Novedad) para evaluar el rendimiento de las respuestas de los chatbots. Además, presenté un nuevo punto de referencia para clasificar indicaciones llamado RQTL (Solicitud vs. Pregunta, Prueba vs. Aprendizaje), cuyo objetivo es refinar las predicciones de las elecciones humanas y contextualizar las puntuaciones SCBN según la intención inferida del usuario. Puede consultar todo el código, las anotaciones y los gráficos en el widget de Kaggle a continuación. Explore y ejecute el cuaderno…

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL Leer más »

El parámetro SCBN (especificidad, coherencia, brevedad y novedad) es un método para evaluar la calidad de los resultados de los modelos de lenguaje y los chatbots. SCBN proporciona una forma clara y sistemática de comparar y evaluar las respuestas de los chatbots en función de cuatro métricas principales.

– Especificidad (S): evalúa si la respuesta de un chatbot está directamente relacionada con la solicitud del usuario. Comprueba con qué precisión la respuesta aborda la solicitud sin desviarse del tema.
– Coherencia (C): mide la estructura lógica de la respuesta. Garantiza que la información contenida en la respuesta se presente de forma clara y organizada, facilitando su comprensión por parte del usuario.