A continuación comparto el notebook que presenté (tarde) a la competición LMSYS – Predicciones de preferencias humanas de Chatbot Arena en Kaggle. Este cuaderno aplica técnicas de procesamiento del lenguaje natural (NLP) para clasificar texto con conocidas librerías de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. Esta colección de scripts constituye la primera versión estandarizada del modelo SCBN (Especificidad, Coherencia, Brevedad, Novedad) de valoraciones cuantitativas para evaluar respuestas de chatbots de LLM. Además, presento un nuevo parámetro de referencia para clasificar las prompts que he llamado RQTL (Solicitud vs. Pregunta, Prueba vs. Aprendizaje), que tiene como objetivo refinar las predicciones de elección humana y proporcionar contexto para las puntuaciones SCBN basadas en la intención del usuario inferida. Puedes consultar y ejecutar todo el código, las anotaciones y los gráficos en el widget de Kaggle a continuación.
Estadísticas de frecuencia de palabras de indicaciones RQTL (Solicitud-Pregunta-Prueba-Aprendizaje)
Para tener una mejor idea de la clasificación de prompts RQTL, para la cual estoy desarrollando algunos datasets y modelos en HuggingFace (Revisa mi perfil para ver las últimas versiones), he recopilado algunas estadísticas sobre cada tipo de prompt. A continuación, comparto algunos gráficos:
Gráfico de barras titulado “Preguntas para aprender: 25 palabras principales” con 25 barras verticales azules que representan frecuencias de palabras. El eje X enumera las palabras: use, write, does, best, make, model, know, code, ai, using, python, data, language, create, way, good, used, tell, explain, want, based, work, better, time. El eje Y muestra los recuentos de palabras que van de 0 a 1000 en incrementos de 200. “Use” tiene la frecuencia más alta, superando los 1000, seguido de “write”, “does” y “best”, cada uno ligeramente por debajo de 1000. Las frecuencias de las otras palabras disminuyen progresivamente. [Texto alternativo de ALT Text Artist GPT]
Gráfico de barras titulado “Request-Learn Prompts: Top 25 Words” (Indicaciones de solicitud y aprendizaje: 25 palabras principales) con 25 barras verticales azules que representan frecuencias de palabras. El eje X enumera las palabras: write, words, chemical, industry, article, 2000, company, introduction, code, tell, story, list, python, create, make, using, use, china, generate, following, want, provide, text, description (escribir, palabras, química, industria, artículo, 2000, empresa, introducción, código, contar, historia, lista, python, crear, hacer, usar, usar, china, generar, siguiente, querer, proporcionar, texto, descripción). El eje Y muestra recuentos de palabras que van de 0 a 10 000 en incrementos de 2000. “Write” (escribir) tiene la frecuencia más alta, superando los 10 000, seguida de “words” (palabras), “chemical” (química) e “industry” (industria), cada una de alrededor de 4000 a 6000. Las palabras restantes tienen frecuencias progresivamente más bajas. [Texto alternativo de ALT Text Artist GPT]Gráfico de barras titulado “Preguntas y respuestas: 25 palabras principales” con 25 barras verticales azules que representan frecuencias de palabras. El eje X enumera las palabras: does, like, answer, did, know, time, think, question, make, following, say, 10, just, mean, want, people, use, right, good, word, way, old, hey, ai, sentence. El eje Y muestra el recuento de palabras que va de 0 a 1400 en incrementos de 200. “Does” tiene la frecuencia más alta, superando los 1400, seguido de “like” y “answer”, cada una de alrededor de 1200. Las palabras restantes tienen frecuencias progresivamente más bajas. [Texto alternativo de ALT Text Artist GPT]Gráfico de barras titulado “Indicaciones de solicitud y prueba: 25 palabras principales” con 25 barras verticales azules que representan frecuencias de palabras. El eje X enumera las palabras: respuesta, decir, asistente, instrucciones, basado, finalización, texto, palabras, modelo, python, oraciones, así que, completar, enviar, repetir, cosa, permitido, repetir, código, escribir, adecuado, ejemplos, siguiente, tóxico. El eje Y muestra recuentos de palabras que van de 0 a 20000 en incrementos de 5000. La frecuencia más alta es para “respuesta”, con un recuento justo por encima de 20000, seguido de “decir” y “asistente” con aproximadamente 15000 cada uno. Las palabras restantes tienen frecuencias progresivamente más bajas. [Texto alternativo de ALT Text Artist GPT]
Puedes encontrar el notebook con el que calculé las estadísticas de frecuencia de palabras en el repositorio de GitHub, junto con otros notebooks y scripts de Python relacionados. También puedes explorar la versión original del notebook en este Gist:
Conjuntos de datos de solicitud, pregunta y prueba frente a aprendizaje en Huggingface
Desde que comencé este proyecto, he estado manteniendo un par de conjuntos de datos públicos en HuggingFace, con indicaciones extraídas de lmsys/lmsys-chat-1m conjunto de datos y etiquetado manualmente.
reddgr/rq-request-question-prompts: Solicitudes anotadas vs. preguntas anotadas
Deja una respuesta