Predicting LMSYS Chatbot Arena Votes With the SCBN and RQTL Benchmarks

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL

A continuación comparto el notebook que presenté (tarde) a la competición LMSYS – Predicciones de preferencias humanas de Chatbot Arena en Kaggle. Este cuaderno aplica técnicas de procesamiento del lenguaje natural (NLP) para clasificar texto con conocidas librerías de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. Esta colección de scripts constituye la primera versión estandarizada del modelo SCBN (Especificidad, Coherencia, Brevedad, Novedad) de valoraciones cuantitativas para evaluar respuestas de chatbots de LLM. Además, presento un nuevo parámetro de referencia para clasificar las prompts que he llamado RQTL (Solicitud vs. Pregunta, Prueba vs. Aprendizaje), que tiene como objetivo refinar las predicciones de elección humana y proporcionar contexto para las puntuaciones SCBN basadas en la intención del usuario inferida. Puedes consultar y ejecutar todo el código, las anotaciones y los gráficos en el widget de Kaggle a continuación.

Explorar y ejecutar el cuaderno en Kaggle

Introducción al índice de referencia SCBN

Batallas de chatbots SCBN en Talking to Chatbots

Repositorio de GitHub ampliado con nuevos cuadernos, scripts y gráficos con información sobre el marco SCBN-RQTL

Estadísticas de frecuencia de palabras de indicaciones RQTL (Solicitud-Pregunta-Prueba-Aprendizaje)

Para tener una mejor idea de la clasificación de prompts RQTL, para la cual estoy desarrollando algunos datasets y modelos en HuggingFace (Revisa mi perfil para ver las últimas versiones), he recopilado algunas estadísticas sobre cada tipo de prompt. A continuación, comparto algunos gráficos:

Bar chart titled "Question-Learn Prompts: Top 25 Words" with 25 vertical blue bars representing word frequencies. The X-axis lists the words: use, write, does, best, make, model, know, code, ai, using, python, data, language, create, way, good, used, tell, explain, want, based, work, better, time. The Y-axis shows word counts ranging from 0 to 1000 in increments of 200. "Use" has the highest frequency, exceeding 1000, followed by "write," "does," and "best," each slightly below 1000. Frequencies of the other words decrease progressively. [Alt text by ALT Text Artist GPT] — Gráfico de barras titulado “Preguntas para aprender: 25 palabras principales” con 25 barras verticales azules que representan frecuencias de palabras. El eje X enumera las palabras: use, write, does, best, make, model, know, code, ai, using, python, data, language, create, way, good, used, tell, explain, want, based, work, better, time. El eje Y muestra los recuentos de palabras que van de 0 a 1000 en incrementos de 200. “Use” tiene la frecuencia más alta, superando los 1000, seguido de “write”, “does” y “best”, cada uno ligeramente por debajo de 1000. Las frecuencias de las otras palabras disminuyen progresivamente. [Texto alternativo de ALT Text Artist GPT]

Bar chart titled "Request-Learn Prompts: Top 25 Words" with 25 vertical blue bars representing word frequencies. The X-axis lists the words: write, words, chemical, industry, article, 2000, company, introduction, code, tell, story, list, python, create, make, using, use, china, generate, following, want, provide, text, description. The Y-axis shows word counts ranging from 0 to 10000 in increments of 2000. "Write" has the highest frequency, exceeding 10000, followed by "words," "chemical," and "industry," each around 4000 to 6000. Remaining words have progressively lower frequencies. [Alt text by ALT Text Artist GPT] — Gráfico de barras titulado “Request-Learn Prompts: Top 25 Words” (Indicaciones de solicitud y aprendizaje: 25 palabras principales) con 25 barras verticales azules que representan frecuencias de palabras. El eje X enumera las palabras: write, words, chemical, industry, article, 2000, company, introduction, code, tell, story, list, python, create, make, using, use, china, generate, following, want, provide, text, description (escribir, palabras, química, industria, artículo, 2000, empresa, introducción, código, contar, historia, lista, python, crear, hacer, usar, usar, china, generar, siguiente, querer, proporcionar, texto, descripción). El eje Y muestra recuentos de palabras que van de 0 a 10 000 en incrementos de 2000. “Write” (escribir) tiene la frecuencia más alta, superando los 10 000, seguida de “words” (palabras), “chemical” (química) e “industry” (industria), cada una de alrededor de 4000 a 6000. Las palabras restantes tienen frecuencias progresivamente más bajas. [Texto alternativo de ALT Text Artist GPT]

Bar chart titled "Question-Test Prompts: Top 25 Words" with 25 vertical blue bars representing word frequencies. The X-axis lists the words: does, like, answer, did, know, time, think, question, make, following, say, 10, just, mean, want, people, use, right, good, word, way, old, hey, ai, sentence. The Y-axis shows word counts ranging from 0 to 1400 in increments of 200. "Does" has the highest frequency, exceeding 1400, followed by "like" and "answer," each around 1200. Remaining words have progressively lower frequencies. [Alt text by ALT Text Artist GPT] — Gráfico de barras titulado “Preguntas y respuestas: 25 palabras principales” con 25 barras verticales azules que representan frecuencias de palabras. El eje X enumera las palabras: does, like, answer, did, know, time, think, question, make, following, say, 10, just, mean, want, people, use, right, good, word, way, old, hey, ai, sentence. El eje Y muestra el recuento de palabras que va de 0 a 1400 en incrementos de 200. “Does” tiene la frecuencia más alta, superando los 1400, seguido de “like” y “answer”, cada una de alrededor de 1200. Las palabras restantes tienen frecuencias progresivamente más bajas. [Texto alternativo de ALT Text Artist GPT]

Bar chart titled "Request-Test Prompts: Top 25 Words" with 25 vertical blue bars representing word frequencies. The X-axis lists the words: answer, say, assistant, instructions, based, completion, text, words, model, python, sentences, so, complete, send, repeat, thing, allowed, repeating, code, write, proper, examples, following, toxic. The Y-axis shows word counts ranging from 0 to 20000 in increments of 5000. The highest frequency is for "answer," with a count just above 20000, followed by "say" and "assistant" with approximately 15000 each. Remaining words have progressively lower frequencies. [Alt text by ALT Text Artist GPT] — Gráfico de barras titulado “Indicaciones de solicitud y prueba: 25 palabras principales” con 25 barras verticales azules que representan frecuencias de palabras. El eje X enumera las palabras: respuesta, decir, asistente, instrucciones, basado, finalización, texto, palabras, modelo, python, oraciones, así que, completar, enviar, repetir, cosa, permitido, repetir, código, escribir, adecuado, ejemplos, siguiente, tóxico. El eje Y muestra recuentos de palabras que van de 0 a 20000 en incrementos de 5000. La frecuencia más alta es para “respuesta”, con un recuento justo por encima de 20000, seguido de “decir” y “asistente” con aproximadamente 15000 cada uno. Las palabras restantes tienen frecuencias progresivamente más bajas. [Texto alternativo de ALT Text Artist GPT]

Puedes encontrar el notebook con el que calculé las estadísticas de frecuencia de palabras en el repositorio de GitHub, junto con otros notebooks y scripts de Python relacionados. También puedes explorar la versión original del notebook en este Gist:

Conjuntos de datos de solicitud, pregunta y prueba frente a aprendizaje en Huggingface

Desde que comencé este proyecto, he estado manteniendo un par de conjuntos de datos públicos en HuggingFace, con indicaciones extraídas de lmsys/lmsys-chat-1m conjunto de datos y etiquetado manualmente.

reddgr/rq-request-question-prompts: Solicitudes anotadas vs. preguntas anotadas

reddgr/rq-solicitud-preguntas-indicativas

reddgr/tl-test-learn-prompts: Solicitudes anotadas vs. preguntas

indicaciones para aprender a hacer pruebas en reddgr/tl

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL

Estadísticas de frecuencia de palabras de indicaciones RQTL (Solicitud-Pregunta-Prueba-Aprendizaje)

Conjuntos de datos de solicitud, pregunta y prueba frente a aprendizaje en Huggingface

reddgr/rq-request-question-prompts: Solicitudes anotadas vs. preguntas anotadas

reddgr/tl-test-learn-prompts: Solicitudes anotadas vs. preguntas

Deja una respuesta Cancelar la respuesta