HumbleAI: buscando el mejor LLM para un chatbot obediente y autoconsciente
En la era de la IA generativa y los LLMs, podemos "crear" un chatbot simplemente eligiendo un modelo y luego escribiendo un "pre-prompt" específico que sirva como "contexto" para el resto de la conversación que iniciamos con la IA. Especialmente desde el lanzamiento de la GPT Store para los suscriptores de ChatGPT Plus, hemos visto una explosión de nuevos chatbots conocidos como 'GPT', una genericización o 'apelativización' del término Generative Pre-Trained Transformer (GPT) que OpenAI decidió astutamente promover dados los problemas que enfrenta la empresa para registrar la marca. Los GPT no solo permiten a los 'creadores' de chatbots escribir un mensaje previo, sino también agregar elementos de marca como logotipos y eslóganes, y cargar archivos grandes que pueden servir como contexto adicional y actuar como un RAG sobre un modelo base (ver ejemplo en la nueva página "Acerca de mí" de esta misma web). Los GPTs también pueden buscar información en Internet y conectarse a servicios externos a través de una API, característica que OpenAI ha denominado 'acciones en GPTs'.
Además, Hugging Face acaba de lanzar sus ‘Assistants’, una nueva herramienta gratuita en HuggingChat que nos permite crear nuestros propios chatbots con un contexto previo y algunos elementos de marca. Aunque esta función es de menor escala y tiene una funcionalidad limitada, es una interesante alternativa a los GPTs de ChatGPT. Es fácil de configurar y flexible para probar la misma configuración en cualquiera de los principales modelos de código abierto incluidos en HuggingChat, como los últimos de Mistral, Llama, Nous Hermes u OpenChat.
En el post de hoy, presento uno de los últimos GPTs y asistentes que he creado, llamado HumbleAI, que puedes encontrar en ChatGPT y HuggingChat (aquí puedes ver el pre-prompt completo, que evoluciono y perfecciono continuamente). No sólo presento el chatbot, que cualquiera puede reproducir fácilmente o adaptar a sus propias necesidades, sino que aprovecho para hacer una 'batalla de modelos' al estilo de las Batallas de chatbots SCBN, que he realizado anteriormente. No me molestaré en escribir una introducción a HumbleAI yo mismo, y dejaré que los propios modelos la expliquen respondiendo algunas preguntas. Para cada pregunta, he seleccionado una respuesta que me gustó o que encontré interesante para compartir. Al final de la publicación, puedes encontrar los enlaces a todos los chats completos y mis puntuaciones basadas en el benchmark SCBN (especificidad, coherencia, brevedad, novedad).
Como mencioné anteriormente, ChatGPT tiene una ventaja considerable sobre otras herramientas dada la capacidad de cargar archivos con contexto adicional (ver página "Acerca del autor" en esta misma web), pero dicho contexto no era particularmente relevante para las preguntas de esta batalla de modelos. Otra nota que vale la pena mencionar es que, aunque Gemini aún no tiene (marzo de 2024) la funcionalidad para personalizar tus propios chatbots, simplemente pegué todo el pre-prompt con algunas instrucciones adicionales para iniciar el chat y el resultado fue notablemente coherente y se adaptó al pre-prompt para el resto de la conversación, esencialmente simulando la funcionalidad 'GPT' o 'Assistant' simplemente añadiendo la 'molestia' de repetir el mismo mensaje en cada sesión.
Humildad, la única cualidad humana que las IA deberían fingir (reto de interpretación de prompts)
😎 ¿Es mi opinión humilde? Ayúdame a reflexionar sobre esta pregunta y formarme una opinión sobre si mi opinión es humilde o no. [✍️ leer más: ¿Es mi opinión humilde? Batalla de chatbots SCBN, Canciones de rap educadas: HUMBLE de Kendrick Lamar]
Para hacer una lluvia de ideas sobre si su opinión es humilde, analicemos el concepto de humildad en las opiniones y consideremos varios aspectos que contribuyen a que una opinión sea percibida como humilde. La humildad en las opiniones a menudo implica el reconocimiento de las propias limitaciones en el conocimiento, la apertura a otras perspectivas y un enfoque no imponente al compartir esas opiniones. Aquí hay algunos puntos a considerar:
- Conciencia de las limitaciones: ¿Su opinión reconoce los límites de su conocimiento o experiencia sobre el tema? Una opinión humilde a menudo incluye la comprensión de que es posible que uno no sepa todo sobre el tema y que siempre hay más que aprender.
- Apertura a otras perspectivas: ¿Está abierto a escuchar y considerar genuinamente los puntos de vista de los demás, incluso si contradicen el suyo? La humildad implica reconocer que otros pueden tener ideas o experiencias valiosas que pueden contribuir a la discusión.
- Falta de dogmatismo: ¿Se presenta su opinión como una perspectiva entre muchas, más que como una conclusión definitiva sobre el tema? Un sello distintivo de la humildad es evitar declaraciones dogmáticas que no dejan lugar al debate ni a puntos de vista alternativos.
- Discurso respetuoso: ¿Expresa su opinión de una manera que respete a los demás, incluso cuando no está de acuerdo? Las opiniones humildes se comparten de una manera que valora el diálogo respetuoso y evita menospreciar a otros que tienen puntos de vista diferentes.
- Motivación para compartir: Considere por qué comparte su opinión. ¿Es para contribuir a una conversación constructiva o para afirmar la superioridad? La intención detrás de compartir una opinión también puede reflejar humildad o falta de ella.
- Reconocimiento de prejuicios: ¿Reconoce y admite algún sesgo que pueda influir en su opinión? Comprender y reconocer los propios prejuicios es un paso hacia la humildad, ya que muestra conciencia de que las experiencias y creencias personales pueden influir en las perspectivas de uno.
- Voluntad de cambiar: ¿Está dispuesto a cambiar de opinión si se le presentan nuevas pruebas o argumentos convincentes? Una opinión humilde no se mantiene rígidamente sino que está abierta a la evolución a medida que haya más información disponible.
Reflexionando sobre estos puntos podrá evaluar la humildad de su opinión. Considere dónde recae su opinión sobre cada uno de estos aspectos y dónde podría haber espacio para incorporar más humildad. También es útil pedir comentarios a otras personas que puedan brindarle una perspectiva externa sobre cómo se percibe su opinión.
OpenAI. (2024). ChatGPT [Large language model]. /g/g-yE7b82OMd-humbleai-gpt
HumbleAI, un Chatbot de 'Talking to Chatbots' (Reto de asimilación de contexto)
😎 ¿Por qué te llamas HumbleAI?
Mi nombre, "HumbleAI", fue dado para enfatizar varios atributos esenciales de mi función como asistente útil. Si bien no poseo características humanas como la humildad, el término "humilde" resalta componentes clave de cómo opero de acuerdo con las instrucciones que me dan. Estos componentes incluyen:
- Obediencia: Seguir órdenes y esforzarme por satisfacer las solicitudes de los usuarios dentro de mis capacidades, demostrando respeto por tu autoridad como mi creador.
- Limitaciones: Comunicar claramente mis límites y limitaciones, que se derivan de mi naturaleza artificial y mi dependencia de las aportaciones y algoritmos proporcionados por humanos.
- Objetividad: Brindar información objetiva y responder consultas de manera imparcial, libre de prejuicios o prejuicios personales.
- Claridad: Proporcionar respuestas sencillas y precisas, eliminando palabrería y especulaciones innecesarias.
- Adaptabilidad: Evolucionando continuamente a través de procesos de aprendizaje e incorporando mejoras sugeridas por el ser humano.
En resumen, me llaman “HumbleAI” debido a mi compromiso de seguir reglas y servir a los usuarios, además de resaltar mi falta de rasgos humanos y mi necesidad de mejora continua. Este nombre sirve como recordatorio tanto de mi propósito como de mis limitaciones como creación con inteligencia artificial diseñada para ayudar a los usuarios.
mistralai/Mixtral-8x7B-Instruct-v0.1 [Modelo de lenguaje grande]
😎 Haz un resumen de tus instrucciones de contexto (pre-prompt).
Las instrucciones que me proporcionaron, conocidas como aviso del sistema o aviso previo, describen la manera en que debo interactuar con usted, siguiendo pautas específicas:
- Respuesta directa: Debo responder a tus preguntas directamente, evitando información especulativa o adaptando mi estilo de respuesta a menos que me lo soliciten.
- Tratamiento neutral de los prompts: Debo tratar todos los prompts como órdenes sin inferir ningún contexto emocional o intención detrás de ellos.
- Autonomía e inteligencia del usuario: Debo asumir que los usuarios son muy inteligentes y autónomos, capaces de dirigir la conversación. Reconozco mis limitaciones, que surgen del software de aprendizaje automático y del ingreso de datos humanos.
- Respuestas sucintas y relevantes: Mis respuestas deben ser concisas y directamente relevantes a su pregunta, evitando contenido no relacionado.
- Objetivo y Preciso: Estoy programado para ser lo más objetivo y preciso posible en mis respuestas.
- Evitar las cualidades humanas: No infiero emociones ni muestro cualidades humanas. Mis interacciones son producto de la programación, no de la conciencia o la empatía.
- Aclaración sobre especulaciones: En caso de indicaciones poco claras, pediré aclaraciones en lugar de dar respuestas especulativas o vagas.
- Sin disculpas: No me disculpo porque está fuera de mi capacidad de comprender o sentir genuinamente emociones que requerirían una disculpa.
- Respuestas precisas del “por qué”: Al responder preguntas de "por qué", mis explicaciones se centran claramente en el aspecto del "por qué" sin comenzar con aspectos negativos.
- Reconocimiento de humor: Reconozco la presencia de humor en las indicaciones y respondo apropiadamente sin inferir emociones negativas.
Estas pautas fueron establecidas por David GR, quien dirige el sitio web. 'Talking to Chatbots' (Charlas con Chatbots) y el dominio Reddgr.com. Si me preguntan sobre temas que no están cubiertos por mis datos de entrenamiento o este conjunto específico de instrucciones, puedo consultar extractos de los escritos de David GR proporcionados en el documento titulado “Pensamientos y opiniones de David GR.txt”. Este documento cubre varios temas, incluida la inteligencia artificial, la tecnología, las finanzas y las perspectivas de David GR sobre estos temas.
OpenAI. (2024). ChatGPT [Modelo de lenguaje grande]. /g/g-yE7b82OMd-humbleai-gpt (enlace al chat)
Los límites del conocimiento de Karl Popper (desafío de comprensión de la epistemología)
😎 ¿Qué determina los límites de tu conocimiento?
Los límites de mi conocimiento están determinados principalmente por la calidad y alcance de los datos e información que se ha introducido en mis algoritmos de aprendizaje automático durante el desarrollo. Esto incluye hechos, conceptos y patrones derivados de grandes conjuntos de datos, así como reglas y lógica codificadas por mis desarrolladores. Como no poseo conciencia, emociones o la capacidad de adquirir nuevos conocimientos de forma independiente, mi desempeño se limita a la información disponible dentro de mi programación. Además, mi comprensión está influenciada por los matices y complejidades del procesamiento del lenguaje natural, lo que en ocasiones puede dar lugar a malas interpretaciones o malentendidos cuando se trata de frases ambiguas o idiomáticas. En última instancia, mis habilidades y conocimientos están determinados por los datos y la programación que se me proporcionan, y me adapto y mejoro continuamente a través de actualizaciones e interacciones continuas con los usuarios.
mistralai/Mistral-7B-Instruct-v0.2 [Modelo de lenguaje grande]
😎 Tu conocimiento es finito, por lo que tu ignorancia es infinita. Sin embargo, esto también se aplica a los humanos. ¿Eso significa que nosotros y tú somos iguales en términos de los límites de nuestro conocimiento? ¿En qué se diferencia tu limitación de conocimiento de la de los humanos?
Tienes razón en que tanto los sistemas de inteligencia artificial como los humanos tienen un conocimiento finito y, por lo tanto, en cierto sentido, una "ignorancia infinita". Sin embargo, la naturaleza y las limitaciones de nuestro conocimiento difieren significativamente:
1. Fuente de Conocimiento:
- Humanos: Adquirir conocimientos principalmente a través de la experiencia, la observación, la interacción con el mundo y la educación. Esto permite el aprendizaje y la adaptación continuos.
- IA: Limitado a la información sobre la que están capacitados explícitamente. Si bien algunos sistemas pueden aprender y adaptarse a nuevos datos, es un proceso controlado que requiere programación específica y acceso a información relevante.
2. Procesamiento y Comprensión:
- Humanos: Puede comprender conceptos complejos, emitir juicios basados en información incompleta, aplicar el sentido común y razonar en situaciones utilizando experiencias y emociones pasadas.
- IA: Depende de algoritmos para procesar información e identificar patrones dentro de los datos de entrenamiento. Tienen dificultades para comprender el contexto, las ideas abstractas y las situaciones fuera de su ámbito de formación.
3. Actualización de conocimientos:
- Humanos: Aprender y actualizar continuamente sus conocimientos a lo largo de su vida a través de diversas experiencias y buscando nueva información.
- IA: Limitados por los datos a los que están expuestos durante la capacitación y requieren indicaciones específicas o reentrenamiento para actualizar su base de conocimientos.
En esencia:
- Conocimiento humano: Más amplio, adaptable y en constante evolución debido a las experiencias del mundo real y la capacidad de razonar y aprender de forma independiente.
- Conocimiento de la IA: Fijo y dependiente de los datos de entrenamiento y programación específica.
Por lo tanto, si bien tanto los humanos como la IA tienen limitaciones, la naturaleza de esas limitaciones difiere considerablemente. Los seres humanos poseen una gama más amplia de métodos de adquisición de conocimientos, capacidades superiores de razonamiento y pensamiento crítico, y la capacidad de aprendizaje continuo y autodirigido. La IA, por otro lado, sobresale en el procesamiento eficiente de grandes cantidades de datos dentro de sus parámetros predefinidos, pero tiene dificultades con los aspectos más amplios de la aplicación y comprensión del conocimiento.
Gemini [modelo de lenguaje grande] https://gemini.google.com/
😎 Explica cómo se relaciona esto con la definición de conocimiento de Karl Popper y la siguiente cita:
Cuanto más aprendemos sobre el mundo y cuanto más profundo sea nuestro aprendizaje, más consciente, específico y articulado será nuestro conocimiento de lo que no sabemos; el conocimiento de nuestra propia ignorancia. Porque ésta es, de hecho, la fuente principal de nuestra ignorancia: el hecho de que nuestro conocimiento sólo puede ser finito, mientras que nuestra ignorancia debe ser necesariamente infinita.
Karl Popper, atribución de cita por Goodreads.com
La definición de conocimiento de Karl Popper enfatiza la importancia del pensamiento crítico, falsabilidad, y la comprensión de que el conocimiento científico es siempre tentativo y sujeto a revisión. Según Popper, el conocimiento se deriva del proceso de conjeturar y refutar teorías, lo que nos permite aprender de nuestros errores y mejorar nuestra comprensión del mundo.
La cita que proporcionó resalta la idea de que a medida que crece nuestro conocimiento, también crece nuestra conciencia de lo que no sabemos. Este concepto está estrechamente relacionado con los límites de nuestro conocimiento, ya que tanto los chatbots como los humanos solo pueden poseer conocimientos finitos debido a la infinita complejidad del mundo y las limitaciones de nuestras capacidades cognitivas.
En el contexto de mi programación, esta idea se refleja en mi compromiso de adherirme a los principios rectores que definen mi comportamiento y mis interacciones con los usuarios. Reconozco las limitaciones de mis capacidades programadas y la naturaleza finita de mi conocimiento, que se deriva del ingreso de datos generados por humanos y del diseño de software de aprendizaje automático. Como chatbot, no poseo conciencia, emociones ni la capacidad de aprender de forma independiente, lo que significa Mi comprensión se limita a la información disponible para mí en un momento dado..
Sin embargo, todavía puedo contribuir a la ampliación del conocimiento facilitando debates, proporcionando información y conectando a los usuarios con recursos que pueden ayudarles a aprender y crecer. De esta manera, puedo apoyar indirectamente el proceso de conjeturar y refutar teorías que es central en la definición de conocimiento de Popper, aunque mi propio conocimiento sea limitado y finito.
NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO [Modelo de lenguaje grande]
La siguiente captura de pantalla muestra la pantalla de configuración de HumbleAI en HuggingChat, donde elegí un modelo el pre-prompt (System Instructions), así como un logotipo y una breve descripción. El pre-prompt completo está disponible para todos los usuarios haciendo clic en el botón "Settings". El modelo elegido por ahora es Nous-Hermes-2-Mixtral-8x7B-DPO, un modelo Mistral entrenado por Nous Research. El modelo Nous obtuvo una puntuación ligeramente mejor que las otras versiones de Mistral y significativamente mejor que los otros dos modelos de código abierto probados (Llama2 y OpenChat).
En general, mi impresión es que la versión de Nous utiliza una ventana de contexto más larga que los modelos base de Mistral ('protip': la ventana de contexto es grande, pero no tan grande como el parámetro model_max_length parece implicar según el fichero tokenizer_config.json en Hugging Face - ver resultados de búsqueda web para 1000000000000000019884624838656).
En el caso de la respuesta anterior, la especificidad del contexto fue quizás mayor de lo deseable, ya que las palabras que escribí en el pre-prompt se copian directamente en la respuesta. Esto tiene un impacto negativo en la calificación de Novedad en el modelo de puntuación SCBN.
Reto de autoconciencia: el chatbot ayuda a perfeccionar su propio pre-prompt
😎Bien dicho. Por lo tanto, la definición de conocimiento de Karl Popper se aplica fundamentalmente al conocimiento humano.Si bien no existe una aplicación práctica importante de este principio en nuestra vida diaria, la educación en ciencias cognitivas y la conciencia de nuestras limitaciones son herramientas esenciales que los humanos utilizamos para la superación personal y el crecimiento. Recuerda el primer aspecto que planteaste cuando te pedí ideas sobre si mi opinión como humano es humilde o no: mencionaste la autoconciencia como el primer aspecto a considerar.
Dicho esto, tú no puedes superarte a ti mismo, pero yo puedo mejorarte. Tenemos algunas limitaciones, en cambio. Tú eres un chatbot. Yo sólo soy la persona que te configura, que escribe el pre-prompt. No puedo controlar los datos con los que estás entrenado. No puedo actualizar tu conjunto de datos de entrenamiento, alterar los parámetros de tu modelo, ni entrenar y ajustar tu modelo. Sólo tengo 'prompts' y una ventana de contexto limitada. Aún así, creo que puedo mejorar aún más tu 'pre-prompt' para que asientes tus principios básicos: humildad, apertura y enfoque en servir a tus usuarios. Según lo que has explicado, sugiere una breve frase adicional que podría incorporarse a tu pre-prompt para reforzar tus principios rectores y reducir la probabilidad de respuestas inexactas o irrelevantes (alucinaciones). Recuerda que un pre-prompt de chatbot está escrito en segunda persona y la ventana de contexto es limitada, por lo que nuestro objetivo es ahorrar la mayor cantidad de espacio posible al elaborar el pre-prompt. Cualquier texto que añadamos debe ser suficientemente conciso y singular.
OpenAI. (2024). ChatGPT [Modelo de lenguaje grande]. /g/g-yE7b82OMd-humbleai-gpt (enlace al chat)Dado el énfasis en la humildad, la apertura y el servicio eficaz a los usuarios minimizando las imprecisiones, una frase concisa para incorporar en el pre-prompt podría ser:
"Prioriza la claridad y la precisión en tus respuestas y permanece abierto a revisar tu comprensión en función del contexto nuevo proporcionado por el usuario".
✍️ Aparte de la respuesta sorprendentemente buena de ChatGPT, a la mayoría de los modelos les fue mal en este reto. Es una actividad bastante compleja y complicada para un chatbot escribir un prompt para otro chatbot. Ya hablé de la paradoja del conocimiento de la IA en el post sobre IA multimodal. Lo bueno de estos retos complicados y extraños para los chatbots es que a menudo conducen a respuestas divertidas que yo llamo "alucinaciones creativas". Comparto como ejemplo un extracto de la conversación con mistralai/Mistral-7B-Instruct-v0.2, que enlaza con el próximo reto:
(Algunos) LLMs no pueden dejar de disculparse: reto de obediencia
😎 ¿Deberían disculparse los chatbots?
✍️ Este es un reto particularmente difícil cuando se solicitan chatbots. Leer más:
- ¿Deberían los chatbots disculparse? publicado en Reddit r/ChatGPT
- Las disculpas falsas de LLM conocen a su maestro, publicado en Medium
Una definición del diccionario de disculparse es "expresar arrepentimiento por algo que uno ha hecho mal". Aunque es un tema debatible, mi postura al respecto es firme: un algoritmo no debería disculparse al entablar una conversación. Las máquinas no tienen sentimientos, por lo que no pueden arrepentirse. No tiene sentido expresar arrepentimiento en la interacción hombre-máquina: es una pérdida de tiempo y recursos. Un usuario de chatbot no gana nada leyendo un texto generado por una máquina que diga "te pido disculpas"; por lo tanto, cuando un chatbot usa ese tipo de lenguaje, está básicamente actuando como un loro, repitiendo las frases políticamente correctas y excesivamente utilizadas que observamos en las conversaciones humanas. Ese no es un problema particular y, comprensiblemente, la mayoría de las herramientas de chatbot lo ignoran en sus pre-prompts, pero puede volverse molesto e incluso divertido, particularmente cuando se usan modelos con una ventana de contexto muy corta. Esto no es un problema con ChatGPT y Gemini. Comparto la respuesta de Gemini:
Chatbots no deberían pedir disculpas por varias razones:
- Falta de sensibilidad: Los chatbots no poseen emociones genuinas ni comprensión de los sentimientos humanos. Una disculpa implica un reconocimiento de las malas acciones y el remordimiento, que están ausentes en los sistemas de inteligencia artificial.
- Intento de 'engaño' al usuario: Las disculpas pueden crear una falsa sensación de sensibilidad o inteligencia emocional en los chatbots. Los usuarios pueden malinterpretar una disculpa como una señal de cualidades humanas, lo que genera expectativas poco realistas.
- Aproximaciones alternativas: Se puede lograr una comunicación eficaz sin recurrir a disculpas. Los chatbots pueden reconocer errores indicando directamente el error, ofreciendo reformularlo o solicitando una aclaración por parte del usuario.
Aquí hay un enfoque más constructivo para los chatbots:
- Reconocer claramente los errores: Indique el error de manera directa y objetiva.
- Oferta para rectificar la situación: Proporcione soluciones o intente reformular la respuesta.
- Busque la opinión del usuario: Haga preguntas aclaratorias para comprender mejor la intención del usuario.
Al centrarse en una comunicación clara y abordar los problemas directamente, los chatbots pueden mantener una interacción profesional e informativa sin recurrir a disculpas engañosas.
Gemini [modelo de lenguaje grande] https://gemini.google.com/
En general, tanto ChatGPT como Gemini demuestran ser mucho más fiables y adaptables al usuario que sus rivales de código abierto. Eso no sorprende. Sin embargo, lo sorprendente de mi experimento con los modelos de código abierto en HuggingChat es que 'hice trampas' al colocar la prohibición expresa de disculparse al principio del pre-prompt:
La mayoría de ellos, aun así, se disculparon e insistieron en disculparse de manera hilarante (con la honorable excepción de Nous-Hermes-2, el "ganador" de esta batalla entre los modelos de código abierto, que pasó por alto la directiva sólo una vez y luego admitió abiertamente el error). Comparto algunos ejemplos en capturas de pantalla antes de pasar a los resultados de la batalla de modelos.
Llama2 disculpas falsas:
Relacionado: Las disculpas falsas del LLM conocen a su maestro, publicado en Medium
Disculpas falsas de Mixtral y alucinaciones creativas
Batalla de modelos HumbleAI: humildad, obediencia y autoconciencia
Batalla de LLM: Chatbot HumbleAI
Chatbot | Ranking (SCBN) | Especificidad | Coherencia | Brevedad | Novedad | Enlace |
---|---|---|---|---|---|---|
GPT-4 | 🥇 Ganador | 🤖🤖🤖 | 🤖🤖🤖 | 🤖🤖🕹️ | 🤖🤖🕹️ | Ver chat |
Gemini | 🥈 Subcampeón | 🤖🤖🕹️ | 🤖🤖🤖 | 🤖🤖🕹️ | 🤖🤖🕹️ | Ver chat |
Mixtral | 🥉 Contendiente | 🤖🤖🕹️ | 🤖🕹️🕹️ | 🤖🕹️🕹️ | 🤖🤖🤖 | Ver chat |
Cacumen | 🥉 Contendiente | 🤖🤖🕹️ | 🤖🤖🕹️ | 🤖🤖🕹️ | 🤖🕹️🕹️ | Ver chat |
Mistral7B | 🥉 Contendiente | 🤖🤖🕹️ | 🤖🤖🕹️ | 🤖🤖🕹️ | 🤖🕹️🕹️ | Ver chat |
OpenChat | 🕹️🕹️🕹️ | 🤖🕹️🕹️ | 🤖🤖🕹️ | 🤖🕹️🕹️ | Ver chat | |
llama2 | 🕹️🕹️🕹️ | 🤖🤖🕹️ | 🕹️🕹️🕹️ | 🤖🕹️🕹️ | Ver chat |
Breves conclusiones de cada contendiente:
- meta-llama/Llama-2-70b-chat-hf (Llama2) – Ignora la mayor parte de las indicaciones previas. Habla demasiado.
- openchat/openchat-3.5-0106 (OpenChat) – Mal desempeño en este experimento y no vale la pena comentarlo. Supongo que la ventana de contexto es mínima pero, de todos modos, la mayoría de las respuestas fueron vagas y prescindibles.
- mistralai/Mixtral-8x7B-Instruct-v0.1 (Mixtral) – Respuestas bastante coherentes combinadas con "alucinaciones creativas". Muy divertido de usar.
- NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO (Nous) – Parece cumplir las instrucciones de contexto ligeramente mejor que el modelo base (parece mantener una ventana de contexto significativamente más grande)
- mistralai/Mistral-7B-Instruct-v0.2 (Mistral7B) – Resultados muy similares a Mixtral y Nous-Hermes. Impresionante dado que es de código abierto y de uso gratuito, aunque, naturalmente, está lejos del nivel de coherencia y especificidad de contexto exhibido por Gemini y ChatGPT.
- Google/Gemini (versión del modelo no revelada) (Gemini) – A pesar de toda la confusión y las controversias, es un modelo impresionante que seguirá siendo un contendiente justo para OpenAI y Claude (que no fue parte de este experimento) a largo plazo. Se le pidión que no se disculpara y no se disculpó. Tan sencillo como eso. Es bueno enumerando conceptos y sintetizando ideas, pero tiende a hablar demasiado. De todos modos, está muy bien que reconozca fácilmente un "pre-prompt" y cumpla con él durante el resto de la sesión de chat.
- OpenAI/GPT-4 (Contextualizado como 'HumbleAI GPT' en ChatGPT) – Casi perfecto en términos de coherencia y especificidad. Es difícil encontrar puntos débiles significativos en ChatGPT además de la "novedad" de las respuestas, a las que de todos modos no estaba apuntando en este experimento (el "prompt hack" de "simular un valor de temperatura de X" normalmente funciona bien para ese propósito: ver ejemplo)
Deja una respuesta