Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 TLDR https://talkingtochatbots.com/humbleai-finding-the-best-llm-for-an-obedient-self-aware-chatbot/ 🤖 El artículo analiza “HumbleAI”, un proyecto de chatbot que explora el mejor modelo de lenguaje grande (LLM) para crear un chatbot obediente y consciente de sí mismo. Incluye una comparación de diferentes modelos y destaca la importancia de indicaciones previas específicas para guiar el comportamiento del chatbot. El proyecto tiene como objetivo encontrar un equilibrio entre la obediencia y la autoconciencia en los chatbots, utilizando plataformas como ChatGPT y Hugging Face's Assistants. Los resultados se basan en una competencia de modelos juzgada por criterios como especificidad, coherencia, brevedad y novedad. 😎 Mejore el TLDR mencionando el punto de referencia SCBN (especificidad, coherencia, …

Mejorando el TLDR del artículo de HumbleAI sobre LLM para el desarrollo de chatbots. Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 ¿Qué es el punto de referencia de chatbots de SCBN? [talkingtochatbots.com][talkingtochatbots.com] 🤖 El punto de referencia de chatbots de SCBN se refiere a un marco utilizado para evaluar chatbots en función de la especificidad, la coherencia, la brevedad y la novedad. Se menciona en el contexto de las batallas de chatbots de SCBN, que son parte de las actividades y contribuciones más amplias en el espacio de chatbots presentadas en el sitio web Talking to Chatbots. Estas batallas parecen ser un método para comparar y contrastar las capacidades de varios chatbots, especialmente en el manejo de tareas que requieren generar respuestas específicas, coherentes, concisas y novedosas [ref] [ref]. El SCBN …

¿Cuál es el benchmark del chatbot de SCBN? Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 TLDR https://talkingtochatbots.com/humbleai-finding-the-best-llm-for-an-obedient-self-aware-chatbot/ 🤖 El artículo analiza la creación de HumbleAI, un chatbot diseñado para encarnar la humildad y la obediencia sin características humanas. Explora varios modelos de lenguaje para este propósito, utilizando una competencia de modelos basada en criterios de Especificidad, Coherencia, Brevedad y Novedad (SCBN). El artículo destaca las capacidades y limitaciones de los chatbots, enfatizando la importancia del contexto en sus respuestas y la evolución continua de las tecnologías de chat de IA. Métricas del conjunto de datos Hugging Face Todos los mensajes, respuestas y métricas de conversación están disponibles para descargar y explorar en el conjunto de datos Hugging Face reddgr/talking-to-chatbots-chats:

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 Escribe un par de párrafos introductorios basados en el esquema que aparece a continuación y en la publicación del blog de OpenAI que aparece más abajo. Es solo la introducción a una publicación de blog larga: Esquema: – OpenAI acaba de lanzar los modelos o1, disponibles en ChatGPT y sus API (usa tu propia redacción apropiada y estándar, no necesariamente la mía).– Capacitación en aprendizaje de refuerzo en CoT– Artículo sobre CoT (menciónalo)– CoT fue muy influyente en los primeros días de los LLM a gran escala (era GPT3)– CoT fue muy influyente en la disciplina conocida como “ingeniería rápida”– Es una …

Introducción concisa para la publicación del blog sobre OpenAI o1 y conceptos relacionados. Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 Criterios Texto A Texto B Estilo del lenguaje Directo, obstinado y personal. Utiliza referencias y hashtags específicos. Más formal y estructurado. Utiliza jerga profesional típica. Complejidad y profundidad del tema Aborda cuestiones socioeconómicas complejas con un tono crítico. Contiene ideas y predicciones personales. Se centra en el desarrollo profesional y el uso de LinkedIn, con consejos generales. Naturaleza del contenido Parece más espontáneo, incluye opiniones personales e ideas especulativas. Más informativo y educativo, típico de los artículos de orientación profesional. Tono y estilo de compromiso Asertivo, algo confrontativo e independiente en pensamiento. Neutral, informativo y alineado con …

Modificaciones de tablas HTML para WordPress: ajuste de texto, configuraciones irrompibles y problemas con los subtítulos. Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 🤖 Diagrama de dispersión titulado “SCBN_score_b vs SCBN_score_a – Preguntas regulares (20337)” que muestra una correlación positiva entre las puntuaciones SCBN “a” y “b” en ambos ejes. El gráfico consta de múltiples puntos de datos codificados por colores del azul al rojo, que representan la “Densidad de victorias de la respuesta B” en la barra de colores de la derecha. El eje x está etiquetado como “SCBN_score_b” y el eje y como “SCBN_score_a”. El texto sobre el gráfico dice: “Preguntas regulares (pregunta-instrucción). Las puntuaciones SCBN están altamente correlacionadas con la elección del usuario”. [Texto alternativo de ALT Text Artist GPT] Métricas del conjunto de datos Hugging Face Todas las indicaciones de conversación, respuestas, …

Análisis de correlación de puntuaciones de SCBN Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 🤖 Tabla que muestra la batalla de chatbots de SCBN: gráfico de patrimonio neto. Las columnas de la tabla enumeran “Chatbot”, “Rango (SCBN)”, “Especificidad”, “Coherencia”, “Brevedad”, “Novedad” y “Enlace”. ChatGPT 4.0 se clasifica como el ganador con las calificaciones más altas (tres íconos de robot en cada categoría), seguido de Grok como subcampeón, con Gemini como contendiente. Claude 3.5 Sonnet no está clasificado. Los íconos emoji que representan categorías muestran calificaciones relativas, con un símbolo de “cara de robot” para Especificidad y Novedad y “joystick” para Coherencia y Brevedad. Cada chatbot tiene un enlace de “Captura de pantalla” en el que se puede hacer clic debajo de la columna Enlace. [Texto alternativo de ALT …

Resumen de la batalla del chatbot de SCBN Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 🤖 Aquí hay un texto ALT para la imagen: Una captura de pantalla de una tabla de clasificación titulada “LLM Battle: HumbleAI Chatbot”, que clasifica a varios chatbots. Las columnas de la tabla son “Chatbot”, “Rank (SCBN)”, “Specificity”, “Coherence”, “Brevity”, “Novelty” y “Link”. GPT-4 aparece como el “Ganador” con las calificaciones más altas en todos los criterios, seguido de “Gemini” como “Subcampeón” y “Mixtral”, “Nous”, “Mistral7B”, “OpenChat” y “Llama2” como “Contendientes”. Cada chatbot tiene un conjunto de íconos estilo emoji debajo de cada criterio que indican su desempeño y un enlace “Ver chat” en la última columna. [Texto alternativo de ALT Text Artist GPT] …

Batalla de chatbots con IA en la tabla de posiciones Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 [image: file-2sKe0IfSBl8BmH7Y1vIFTL6e] 🤖 Aquí hay un texto ALT para la imagen: Una captura de pantalla de una página web titulada “Chatbot Battle: Hiring Chatbots – Lava Lamps” de reddgr.com. Presenta una tabla que compara varios chatbots, incluidos Bard, ChatGPT, Interview Wizard GPT, Merlin, Job Application Wizard y Copilot. Las columnas de la tabla incluyen Rango (SCBN), Especificidad, Coherencia, Brevedad, Novedad y Enlace. Bard está clasificado como el Ganador, mientras que ChatGPT, Interview Wizard GPT y Merlin son Subcampeones, y Copilot es un Contendiente. Cada chatbot se evalúa con íconos de estilo emoji bajo cada criterio, y los enlaces son …

Tabla comparativa de chatbots Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 Escribe un párrafo introductorio basado en la información esquemática a continuación. Es solo la introducción a una publicación de blog larga: – OpenAI acaba de lanzar modelos o1.– Capacitación en aprendizaje de refuerzo en CoT– Artículo sobre CoT (menciónalo)– CoT fue muy influyente en los primeros días de los LLM a escala masiva (era GPT3)– CoT fue muy influyente en la disciplina conocida como “ingeniería rápida”– Es un avance importante que incorpora “prepensamiento” (encuentra las palabras adecuadas) a las respuestas de los chatbots.– Recientemente he estado trabajando en algunas ideas relacionadas con esto: un sistema de puntuación …

Párrafo introductorio sobre los modelos o1 de OpenAI y la influencia de CoT en los LLM Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 ¿Puedes reducir esto a aproximadamente 750 caracteres con modificaciones mínimas? Las métricas de análisis de sentimientos son clave para modelar el rendimiento de los chatbots con regresión lineal. El principal desafío para obtener valor de un modelo predictivo es tener suficientes puntos de datos. Ya sea que el servicio lo brinde un chatbot o un agente de soporte, la mayoría de los usuarios de servicio al cliente no se preocupan por brindar comentarios y, cuando los hay, es probable que sean vagos o sesgados. Hoy en día, hay muchas bibliotecas de análisis de sentimientos y NLP disponibles que pueden enriquecer en gran medida el corpus de datos de los propietarios de chatbots para medir …

Mejora del rendimiento de los chatbots mediante análisis de sentimientos y técnicas de ingeniería rápida Leer más »

Cargando datos del conjunto de datos Talking to Chatbots reddgr/talking-to-chatbots-chats … 😎 Muéstrame contenido sobre filosofía[talkingtochatbots.com][talkingtochatbots.com][talkingtochatbots.com][talkingtochatbots.com][talkingtochatbots.com] 🤖 Encontré el siguiente contenido en talkingtochatbots.com: 1. **El Meme Erudite GPT y la filosofía**: este artículo analiza cómo el Meme Erudite GPT aborda con humor temas filosóficos como la IAG y el concepto de correlación versus causalidad, al tiempo que toca consideraciones éticas en el desarrollo de la IA [ref]. 2. **¿La filosofía es una ciencia?**: en esta SCBN Chatbot Battle, varios chatbots, incluidos ChatGPT, Bard y HuggingChat, debaten si la filosofía puede considerarse una ciencia. Las respuestas se evalúan en función de su especificidad, coherencia, brevedad y novedad [ref]. 3. **Erudito…

Solicitudes de contenido filosófico e inquietudes sobre la comprensión y directivas del chatbot. Leer más »

El artículo de hoy contiene un caso práctico y sencillo de uso de chatbots multimodales que he querido probar y mostrar aquí durante bastante tiempo, pero que aún demuestra que estamos lejos de esperar un "razonamiento" confiable de las herramientas LLM al incorporar incluso elementos visuales bastante rudimentarios como gráficos de series temporales. Desafié a ChatGPT 4o (como se discutió en un artículo anterior, o1 en la aplicación web aún no admite la entrada de imágenes), Gemini y Claude para analizar un gráfico de áreas apiladas que represente visualmente la evolución del patrimonio neto de un individuo. Después de varios intentos y alucinaciones flagrantes de todos los modelos, comparto los mejores resultados que, como es habitual en la mayoría de las batallas de SCBN publicadas en Talking to Chatbots, fueron los de ChatGPT.

A continuación se muestra el cuaderno que presenté (con retraso) para la competencia LMSYS – Chatbot Arena Human Preference Predictions en Kaggle. Este cuaderno aplica técnicas de procesamiento del lenguaje natural para clasificar texto con bibliotecas populares de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. El cuaderno presenta la primera versión estandarizada de las puntuaciones cuantitativas SCBN (especificidad, coherencia, brevedad, novedad) para evaluar el rendimiento de la respuesta del chatbot. Además, presenté un nuevo punto de referencia para clasificar indicaciones llamado RQTL (solicitud vs. pregunta, prueba vs. aprendizaje), que tiene como objetivo refinar las predicciones de elección humana y proporcionar contexto para las puntuaciones SCBN basadas en la intención del usuario inferida.

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL Leer más »