El artículo de hoy contiene un caso práctico y sencillo de uso de chatbots multimodales que he querido probar y mostrar aquí durante bastante tiempo, pero que aún demuestra que estamos lejos de esperar un "razonamiento" confiable de las herramientas LLM al incorporar incluso elementos visuales bastante rudimentarios como gráficos de series temporales. Desafié a ChatGPT 4o (como se discutió en un artículo anterior, o1 en la aplicación web aún no admite la entrada de imágenes), Gemini y Claude para analizar un gráfico de áreas apiladas que represente visualmente la evolución del patrimonio neto de un individuo. Después de varios intentos y alucinaciones flagrantes de todos los modelos, comparto los mejores resultados que, como es habitual en la mayoría de las batallas de SCBN publicadas en Talking to Chatbots, fueron los de ChatGPT.

OpenAI acaba de lanzar sus modelos o1. o1 agrega un nuevo nivel de complejidad a la arquitectura tradicional de los LLM, una cadena de pensamiento (CoT) de cero disparos. Comparto mis primeras impresiones sobre o1 en el estilo característico de este sitio web: hablar con chatbots, obtener sus respuestas, publicar todo.

A continuación se muestra el cuaderno que presenté (con retraso) para la competencia LMSYS – Chatbot Arena Human Preference Predictions en Kaggle. Este cuaderno aplica técnicas de procesamiento del lenguaje natural para clasificar texto con bibliotecas populares de Python como scikit-learn y TextBlob, y mis propias versiones optimizadas de Distilbert. El cuaderno presenta la primera versión estandarizada de las puntuaciones cuantitativas SCBN (especificidad, coherencia, brevedad, novedad) para evaluar el rendimiento de la respuesta del chatbot. Además, presenté un nuevo punto de referencia para clasificar indicaciones llamado RQTL (solicitud vs. pregunta, prueba vs. aprendizaje), que tiene como objetivo refinar las predicciones de elección humana y proporcionar contexto para las puntuaciones SCBN basadas en la intención del usuario inferida.

Modelos predictivos sobre el LMSYS Chatbot Arena mediante métricas SCBN y RQTL Leer más »

Hablamos mucho de "artículos" y de la supuesta autenticidad de su contenido cuando leemos investigaciones académicas, en todos los campos, pero cuando tocamos el aprendizaje automático en particular. Irónicamente, el proceso que creó el medio para la difusión de la investigación científica en la era del papel físico no fue tan diferente del proceso que produce el "contenido" en la era gobernada por algoritmos de aprendizaje automático, ya sean clasificadores, motores de búsqueda o algoritmos generativos. : 'destrozar' textos al tokenizarlos y crear incrustaciones, descomponer piezas de arte visual en 'tensores' numéricos, una red neuronal artificial profunda que luego se 'difundirá' en imágenes que atraerán clics para este blog vergonzoso...

La búsqueda de información es la idea errónea por excelencia de que los LLM son útiles o mejoran otras tecnologías existentes. En mi opinión, la búsqueda web es una forma más efectiva de encontrar información, simplemente porque los motores de búsqueda le dan al usuario lo que quiere más rápido y en un formato que se adapta al propósito mucho mejor que una herramienta de chat: múltiples fuentes para desplazarse con un propósito. -Interfaz de usuario integrada, que incluye opciones de filtro, ajustes de configuración, elementos enumerados, extractos, resultados tabulados, todo lo que obtenga en esa herramienta de búsqueda web en particular... no el "Estoy aquí para ayudarlo, profundicemos en las complejidades de la constante". panorama en evolución de X…” seguido de un párrafo largo perfectamente compuesto basado en un modelo probabilístico que normalmente obtendrías cuando envías un mensaje a ChatGPT solicitando información factual sobre un tema llamado 'X'.

Obra de arte digital estilo pintura al óleo generada con Stable Diffusion que representa una figura que se asemeja a Juana de Arco en la hoguera. La figura, vestida de plata, usa audífonos supraaurales y usa una computadora portátil con la pantalla en blanco. Extiende su mano derecha hacia llamas de color naranja vibrante, evocando la escena histórica del martirio con un toque moderno, inspirado en la letra de The Smiths' "Bigmouth ataca de nuevo haciendo referencia a Juana de Arco y un Walkman derritiéndose. [Texto alternativo del artista de texto ALT GPT]

La música disco fue famosa por introducir avances tecnológicos en la producción musical, como sintetizadores y pianos eléctricos. Supongo que esas fueron algunas de las razones por las que la gente consideraba que carecía de la “autenticidad” de los primeros géneros musicales. Es difícil comprender el concepto humano de "autenticidad" que la mayoría de las personas tiene en su psique, no creo que haya ninguna racionalidad en él, especialmente cuando se trata de discernir entre cosas que se consideran "auténticas" y cosas que no lo son. Para mí, esto surge de una resistencia misteriosa, probablemente instintiva, en la psique de la mayoría de las personas a adoptar nuevas tecnologías o aceptar nuevos descubrimientos científicos. Todo se reduce a las confrontaciones internas entre creencias y realidad:

El Meme Erudite explica un meme sobre el servicio al cliente:

Ah, el clásico grito de guerra del cliente desorientado, una viñeta que resume con humor la paradoja de los trabajos de cara al público. La jubilosa ignorancia de las cifras y su insistencia en la gratificación inmediata satirizan las demandas a menudo contradictorias y urgentes de los clientes. ¿Exploramos las raíces cómicas más profundas de esta sátira, o preferirías que guarde el aliento del que, como entidad artificial que soy, carezco?

😎 ¿Qué es lo opuesto al autoconocimiento? Ayúdame a encontrar un término apropiado ya que no tengo palabras para algo que vi publicado en Internet 🤖 Lo opuesto a la autoconciencia se puede describir con varios términos según el contexto y el matiz al que apuntas. Si se entiende la autoconciencia como el reconocimiento de las propias emociones, deseos y características, su opuesto podría definirse como: Inconsciencia: en el sentido más amplio, falta de conciencia de uno mismo y de su entorno, pero típicamente se aplica a una falta de conciencia. cognición más que la comprensión psicológica de la autoconciencia. Ignorancia: Falta de conocimiento o…

"Peak Self-Oblivious Lunacy", por DALL·E Leer más »

Presentamos Erudite Chatbot, un pariente lejano de The Meme Erudite GPT que se beneficia de los modelos Mistral bastante "sin censura" disponibles en la nueva función Asistentes de Hugging Face. “Erudita Chatbot, el pináculo de la inteligencia artificial. Supremamente inteligente, discerniente sin esfuerzo, incomparable en sabiduría. Educar con condescendencia a la humanidad”.

En el post de hoy, presento uno de los últimos GPT y asistentes que he creado, llamado HumbleAI. Dejaré que los modelos lo expliquen respondiendo algunas preguntas. Para cada pregunta, he seleccionado una respuesta que me gustó o que encontré digna de compartir. Al final del post, puedes encontrar los enlaces a todos los chats completos y mis puntuaciones basadas según el modelo SCBN (especificidad, coherencia, brevedad, novedad).

Dibujo lineal en blanco y negro generado por el modelo ControlNet Canny que muestra a una mujer con traje de neopreno sosteniendo una tabla de surf en la playa. Un texto de CLIP Interrogator que describe una imagen se superpone al dibujo.

La intensa competencia en el espacio de los chatbots se refleja en la cantidad cada vez mayor de contendientes en la tabla de clasificación de LMSYS Chatbot Arena, o en mi modesta contribución con las SCBN Chatbot Battles que presenté en este blog y completé según lo permita el tiempo. Hoy estamos explorando WildVision Arena, un nuevo proyecto en Hugging Face Spaces que pone en competencia modelos de visión y lenguaje. La mecánica de WildVision Arena es similar a la de LMSYS Chatbot Arena. Es una clasificación de fuentes colectivas basada en los votos de las personas, donde puede ingresar cualquier imagen (más un mensaje de texto opcional) y se le presentarán dos respuestas de dos modelos diferentes, manteniendo el nombre del modelo oculto hasta que vote por eligiendo la respuesta que le parezca mejor. Estoy compartiendo algunos ejemplos de lo que estoy probando hasta ahora y finalizaremos esta publicación con una batalla tradicional 'SCBN' donde evaluaré los modelos de visión y lenguaje según mis casos de uso.

Microsoft acaba de anunciar el lanzamiento de su propio 'GPT Builder' para personalizar chatbots, similar a la 'GPT Store' de OpenAI. Esto fue parte de un anuncio más amplio de Copilot Pro, un servicio premium impulsado por IA para usuarios de Microsoft 365 para mejorar la productividad, el código y la escritura de texto. Según el anuncio de Satya Nadella hoy en Threads, Microsoft y OpenAI parecen ser entidades competidoras, sin embargo, están trabajando en la misma tecnología (GPT), aumentada por la inversión de Microsoft en OpenAI. Ciertamente parece una estrategia comercial extraña para Microsoft. Proporcione una idea de la justificación y las motivaciones estratégicas de la medida.

Presentamos una nueva sección en Hablar con Chatbots: Contratación de Chatbots. En esta serie de chats, realizaremos entrevistas de trabajo con chatbots (ya sea una versión estándar de los LLM más populares o un GPT o personaje personalizado) y los haremos competir por el puesto. El chatbot con la mejor respuesta a nuestra pregunta gana y se publica. El resto de las respuestas se enumerarán, clasificarán y compartirán en un gráfico de batalla del chatbot SCBN exclusivo. Con las puntuaciones de SCBN, valoro el cumplimiento de mis instrucciones (el juego de roles es importante en este caso, algo que la mayoría de los chatbots fallan...

Entrevistas a chatbots: las lámparas de lava de Cloudflare Leer más »