El artículo de hoy contiene un caso práctico y sencillo de uso de chatbots multimodales que he querido probar y mostrar aquí durante bastante tiempo, pero que aún demuestra que estamos lejos de esperar un "razonamiento" confiable de las herramientas LLM al incorporar incluso elementos visuales bastante rudimentarios como gráficos de series temporales. Desafié a ChatGPT 4o (como se discutió en un artículo anterior, o1 en la aplicación web aún no admite la entrada de imágenes), Gemini y Claude para analizar un gráfico de áreas apiladas que represente visualmente la evolución del patrimonio neto de un individuo. Después de varios intentos y alucinaciones flagrantes de todos los modelos, comparto los mejores resultados que, como es habitual en la mayoría de las batallas de SCBN publicadas en Talking to Chatbots, fueron los de ChatGPT.

A continuación se muestra el cuaderno que presenté (con retraso) para la competencia LMSYS – Chatbot Arena Human Preference Predictions en Kaggle. Este cuaderno aplica técnicas de procesamiento del lenguaje natural para clasificar texto con bibliotecas populares de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. El cuaderno presenta la primera versión estandarizada de las puntuaciones cuantitativas SCBN (especificidad, coherencia, brevedad, novedad) para evaluar el rendimiento de la respuesta del chatbot. Además, presenté un nuevo punto de referencia para clasificar indicaciones llamado RQTL (solicitud vs. pregunta, prueba vs. aprendizaje), que tiene como objetivo refinar las predicciones de elección humana y proporcionar contexto para las puntuaciones SCBN basadas en la intención del usuario inferida.

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL Leer más »

Hablamos mucho de "artículos" y de la supuesta autenticidad de su contenido cuando leemos investigaciones académicas, en todos los campos, pero cuando tocamos el aprendizaje automático en particular. Irónicamente, el proceso que creó el medio para la difusión de la investigación científica en la era del papel físico no fue tan diferente del proceso que produce el "contenido" en la era gobernada por algoritmos de aprendizaje automático, ya sean clasificadores, motores de búsqueda o algoritmos generativos. : 'destrozar' textos al tokenizarlos y crear incrustaciones, descomponer piezas de arte visual en 'tensores' numéricos, una red neuronal artificial profunda que luego se 'difundirá' en imágenes que atraerán clics para este blog vergonzoso...

La búsqueda de información es la idea errónea por excelencia de que los LLM son útiles o mejoran otras tecnologías existentes. En mi opinión, la búsqueda web es una forma más efectiva de encontrar información, simplemente porque los motores de búsqueda le dan al usuario lo que quiere más rápido y en un formato que se adapta al propósito mucho mejor que una herramienta de chat: múltiples fuentes para desplazarse con un propósito. -Interfaz de usuario integrada, que incluye opciones de filtro, ajustes de configuración, elementos enumerados, extractos, resultados tabulados, todo lo que obtenga en esa herramienta de búsqueda web en particular... no el "Estoy aquí para ayudarlo, profundicemos en las complejidades de la constante". panorama en evolución de X…” seguido de un párrafo largo perfectamente compuesto basado en un modelo probabilístico que normalmente obtendrías cuando envías un mensaje a ChatGPT solicitando información factual sobre un tema llamado 'X'.

En el post de hoy, presento uno de los últimos GPT y asistentes que he creado, llamado HumbleAI. Dejaré que los modelos lo expliquen respondiendo algunas preguntas. Para cada pregunta, he seleccionado una respuesta que me gustó o que encontré digna de compartir. Al final del post, puedes encontrar los enlaces a todos los chats completos y mis puntuaciones basadas según el modelo SCBN (especificidad, coherencia, brevedad, novedad).

Dibujo lineal en blanco y negro generado por el modelo ControlNet Canny que muestra a una mujer con traje de neopreno sosteniendo una tabla de surf en la playa. Un texto de CLIP Interrogator que describe una imagen se superpone al dibujo.

La intensa competencia en el espacio de los chatbots se refleja en la cantidad cada vez mayor de contendientes en la tabla de clasificación de LMSYS Chatbot Arena, o en mi modesta contribución con las SCBN Chatbot Battles que presenté en este blog y completé según lo permita el tiempo. Hoy estamos explorando WildVision Arena, un nuevo proyecto en Hugging Face Spaces que pone en competencia modelos de visión y lenguaje. La mecánica de WildVision Arena es similar a la de LMSYS Chatbot Arena. Es una clasificación de fuentes colectivas basada en los votos de las personas, donde puede ingresar cualquier imagen (más un mensaje de texto opcional) y se le presentarán dos respuestas de dos modelos diferentes, manteniendo el nombre del modelo oculto hasta que vote por eligiendo la respuesta que le parezca mejor. Estoy compartiendo algunos ejemplos de lo que estoy probando hasta ahora y finalizaremos esta publicación con una batalla tradicional 'SCBN' donde evaluaré los modelos de visión y lenguaje según mis casos de uso.

Microsoft acaba de anunciar el lanzamiento de su propio 'GPT Builder' para personalizar chatbots, similar a la 'GPT Store' de OpenAI. Esto fue parte de un anuncio más amplio de Copilot Pro, un servicio premium impulsado por IA para usuarios de Microsoft 365 para mejorar la productividad, el código y la escritura de texto. Según el anuncio de Satya Nadella hoy en Threads, Microsoft y OpenAI parecen ser entidades competidoras, sin embargo, están trabajando en la misma tecnología (GPT), aumentada por la inversión de Microsoft en OpenAI. Ciertamente parece una estrategia comercial extraña para Microsoft. Proporcione una idea de la justificación y las motivaciones estratégicas de la medida.

Presentamos una nueva sección en Hablar con Chatbots: Contratación de Chatbots. En esta serie de chats, realizaremos entrevistas de trabajo con chatbots (ya sea una versión estándar de los LLM más populares o un GPT o personaje personalizado) y los haremos competir por el puesto. El chatbot con la mejor respuesta a nuestra pregunta gana y se publica. El resto de las respuestas se enumerarán, clasificarán y compartirán en un gráfico de batalla del chatbot SCBN exclusivo. Con las puntuaciones de SCBN, valoro el cumplimiento de mis instrucciones (el juego de roles es importante en este caso, algo que la mayoría de los chatbots fallan...

Entrevistas a chatbots: las lámparas de lava de Cloudflare Leer más »

🎵 Temas: Música, Negocios 🤖 Chatbots: ChatGPT (enlace compartido de OpenAI deshabilitado por moderación) ⚙️ Ingeniería rápida: escritura creativa, significados de canciones, análisis del lenguaje [Publicación de X.com: HUMBLE] [Publicación de X.com: autenticidad] [Página relacionada: ¿Es mi opinión humilde?] Letras completas y traducciones en LyricsTranslate.com 😎 ¿Puedes escribir un ensayo, sin malas palabras y con un lenguaje educado, basado en el texto que te proporcioné? (está tomado de una canción de rap) El ensayo debe estar escrito en primera persona y no exceder los 1200 caracteres. Concéntrese en temas como la importancia de la humildad, considerando que la persona que escribió la canción solía tener dificultades económicas en el pasado, pero parece...

Canciones de rap educadas: HUMBLE de Kendrick Lamar (TTCB X) Leer más »

🌱 Temas: Filosofía y desarrollo personal 🤖 Chatbots: Bard, ChatGPT, HuggingChat ⚙️ Ingeniería rápida: preguntas conceptuales, análisis de LLM 🔗 Relacionado: [Canciones de rap educadas: HUMBLE, de Kendrick Lamar] [Introducción a las batallas de chatbot de SCBN] [Publicación de X.com] Batalla de chatbot: ¿Mi opinión es humilde? Clasificación de Chatbot (SCBN) Especificidad Coherencia Brevedad Novedad Enlace Bardo 🥇 Ganador 🤖🤖🕹️ 🤖🤖🕹️ 🤖🤖🕹️ 🤖🤖🤖 Ver Chat ChatGPT 🥈 Subcampeón 🤖🤖🕹️ 🤖🤖🕹️ 🤖🤖🕹️ 🤖🤖🕹️ Ver Chat HuggingChat 🥉 Contendiente 🤖 🤖🕹️ 🤖🕹️🕹️ 🤖🕹️🕹️ 🤖🤖🕹️ Ver chat ✍️ Comparto respuestas mixtas de Bard y ChatGPT, incluidos dos chats adicionales en los que me confronté para identificar sus propios textos como escritos por humanos o probablemente escritos por un LLM. 😎 Es mi…

¿Es mi opinión humilde? Batalla de chatbots SCBN Leer más »

💻 Temas: IA 🤖 Chatbots: ChatGPT ⚙️ Ingeniería rápida: codificación, análisis de imágenes [Relacionado: ¿Es la filosofía una ciencia? Presentamos SCBN Chatbot Battles ] [Repositorio de GitHub] Tabulación y formato de texto en HTML 😎 Sugiera un formato de tabla HTML simple donde pueda incluir esta información de forma tabulada, eliminando los hashtags de la publicación en las redes sociales y extrayendo los enlaces en texto (para que las URL no se muestran). La tabla debería titularse "Batalla Chatbot: ¿Es la filosofía una ciencia?". Quiero conservar los emojis para el sistema de puntuación (es decir, 🤖🕹️🕹️), pero la clasificación representada por las medallas emoji puede...

Programación en HTML y Python con ChatGPT Vision (GUI para Batallas de Chatbots) Leer más »

💼🏦 Temas: Negocios, Finanzas 🤖 Chatbots: [ChatGPT] [Bard] ⚙️ Ingeniería rápida: Figuras públicas, temas controvertidos [Entrada de blog] [Entrevista de podcast adquirida] Chatbot Battle: Charlie Munger, sobre Chuanfu y Musk Chatbot Rank (SCBN) Especificidad Coherencia Brevedad Novedad Enlace Bardo 🥇 Ganador 🤖🤖🕹️ 🤖🤖🕹️ 🤖🤖🤖 🤖🕹️🕹️ Ver Chat ChatGPT 🥈 Subcampeón 🤖🕹️🕹️ 🤖🤖🕹️ 🤖🕹 ️🕹️ 🤖🤖🕹️ Ver chat ✍️ Las puntuaciones de batalla de SCBN Chatbot solo reflejan el Pregunta sobre BYD y los directores ejecutivos de Tesla. El chat con ChatGPT fue más largo e incluyó muchas otras indicaciones y respuestas de alta calidad utilizadas en la publicación original del blog. 😎 Aquí tenéis otro fragmento de entrevista (transcrito por ChatGPT) en el que…

Charlie Munger, sobre BYD y Tesla, Chuanfu y Musk, en Acquired Podcast Leer más »

El parámetro SCBN (especificidad, coherencia, brevedad y novedad) es un método para evaluar la calidad de los resultados de los modelos de lenguaje y los chatbots. SCBN proporciona una forma clara y sistemática de comparar y evaluar las respuestas de los chatbots en función de cuatro métricas principales.

– Especificidad (S): evalúa si la respuesta de un chatbot está directamente relacionada con la solicitud del usuario. Comprueba con qué precisión la respuesta aborda la solicitud sin desviarse del tema.
– Coherencia (C): mide la estructura lógica de la respuesta. Garantiza que la información contenida en la respuesta se presente de forma clara y organizada, facilitando su comprensión por parte del usuario.

⚗️💼🏦 Temas: Ciencia, Negocios, Finanzas 🤖 Chatbots: [ChatGPT: primer chat, segundo chat]. [Los chats de ChatGPT Vision no están disponibles para compartir] ⚙️ Ingeniería de sugerencias: análisis del lenguaje, juegos de roles, respuestas con opiniones, juegos de sugerencias 🔗 Páginas relacionadas: [Entrada de blog, Sesgos cognitivos y sabiduría en la era de GenAI] [Entrada de blog, Charlie Munger en Adquirido Podcast] [Publicación de X.com: El panorama en constante evolución de la inversión y la influencia] 😎 “Si crees que eres más inteligente que yo, lo más probable es que no lo seas. Hay una explicación científica para eso: el efecto Dunning-Kruger”. He estado tentado de usar esa frase en las redes sociales antes, pero prefiero no hacerlo porque…

El efecto Dunning-Kruger: autoconciencia en la era de la superconfianza Leer más »