Necesidades vs. deseos: Reflexiones sobre la vida laboral e infografías con Gemini 2.0 Flash

- Necesidad vs. Deseo
- IA que crea infografías, elimina marcas de agua… ¿Más "slop" o "Photoshop killer"?
- Gemini 2.0 Flash de Google, el último hype en la IA generativa
- Un Jupyter notebook de Google Colab para probar tu clave API de Gemini y enviar prompts con código
- …Y entonces llegó OpenAI y la fiebre del Ghibli
Cuando voy a eventos de "networking", mucha gente me pregunta con qué me gano la vida.

Aunque evito la brutal honestidad de la declaración pasivo-agresiva anterior, creo que la gente "del mundillo" de la empresa plantea esa pregunta, así como muchas otras, desde el ángulo equivocado.
El reclutador que pone un sueldo sobre la mesa, el entrevistado quien demanda un trabajo que pague ese dinero, el vendedor que consigue que otros pongan otro tipo de dinero sobre la mesa, o el comprador corporativo que vela por que ese dinero se gaste bien. Todos tienden a caer en la misma trampa. Actúan según lo que creen necesitar y asumen que la otra parte también actuará según esas necesidades percibidas, ignorando que sus acciones son clara y objetivamente una cuestión de deseos, en absoluto de necesidades.

Texto alternativo de ALT Text Artist GPT
Referir algunas de esas coloridas infografías y artículos web de autoayuda que explican la diferencia también podría parecer un poco "pasivo-agresivo", así que yo lo cuento de la siguiente manera:
Necesidad vs. Deseo
Si eres un trabajador y te consideras “necesitado”, no necesitas un trabajo. Necesitas el salario, además de cualquier otro beneficio material o inmaterial que ofrezca el trabajo. Además, es posible que desees un trabajo concreto que te los proporcione.
Si eres propietario o accionista de un negocio y te consideras "necesitado", no necesitas un cliente que compre lo que vendes o un empleado que sirva a ese cliente. Lo que necesitas son beneficios, dividendos o valor para el accionista, además de cualquier otro beneficio material o inmaterial que la empresa provee como consecuencia de tener esos clientes y empleados. Además, puedes desear que alguien en particular sea tu cliente o le de sercivio, para que la empresa te proporcione a ti lo que necesitas.
Si eres alguno de los anteriores pero te consideras privilegiado, además de ser una rareza, no eres diferente de los demás y probablemente sólo quieras las mismas cosas. Tu estatus puede cambiar lo que necesitas en el corto plazo, pero no cambia lo que deseas. Quizás también quieras mantener un trabajo concreto, tener a alguien como cliente o contratar a una persona específica para tu negocio. La "necesidad" no cambia nada, independientemente de que te consideres necesitado o no.
Mi opinión, como alguien que se siente privilegiado (por el entorno en el que nací, la educación y la experiencia laboral que he tenido, y las actuales, aunque cambiantes, circunstancias de la vida), es que la mayoría de la gente en el trabajo y en los negocios ganarían mucho, no de pensar en sus propios privilegios o necesidades, sino de dejar de pensar en si los demás tienen necesidades o son privilegiados. Realmente no cambia nade. Aun así, la mayoría de la gente tiende a mirar a los demás desde esa perspectiva.
IA que crea infografías, elimina marcas de agua… ¿Más "slop" o "Photoshop killer"?
¡Un momento! Este sitio web se llama "Charlas con Chatbots". Quizás te preguntes dónde están los chatbots. Pensé que el tema de "necesidades vs. deseos" sería una buena manera de poner a prueba a los LLM multimodales. Es esa etapa intermedia entre los prompts "tradicionales" de texto-a-imagen y tener una "conversación" con un chatbot, donde esperas una imagen en lugar de una respuesta de texto, o quizás una combinación de ambas.
Desde que DALL·E está integrado con ChatGPT, uno de mis divertimentos favoritos con estas herramientas ha sido pedir infografías. Más allá de los textos absurdos, pero entendibles, incrustados en las imágenes, a veces resulta divertidísimo ver cómo los datos de entrenamiento de millones de artículos de internet, como los de la captura de pantalla de DuckDuckGo que compartí antes, se traducen en imágenes creadas por modelos de difusión. Tal fue el caso de las infografías satíricas generadas por DALL·E que compartí en redes sociales hace mucho tiempo ya: el "Criptobrobot", y la Infografía de 'Estrategias para hacerse rico'. Aquí tienes una infografía de DALL·E sobre "Necesidades vs. Deseos". No me pregunten por qué se colocó "ropa de diseñador", y una caricatura de lo que parece ser una mujer usándola, en la columna izquierda.

Y aquí tienes un par de infografías más "minimalistas" que hice con Gemini 2.0 Flash native image generation, el modelo del que todos en la cámara de resonancia de la IA hablaban mientras escribía este artículo:


Texto alternativo de ALT Text Artist GPT
Si lo que necesitas es dinero y comida, lo que quieres es más comida y más dinero. Aprecio tu honestidad, y tu simplificada perspectiva de la jerarquía de necesidades de Maslow, Gemini. Por si te lo preguntas, la broma no fue idea de Gemini. De hecho, enviar el mismo prompt que usé con DALL·E solía dar lugar a resultados repetitivos, aburridos y sin sentido. Aunque Imagen 3 (el modelo de difusión detrás de Gemini 2.0 Flash) es una buena opción, sigo prefiriendo DALL·E, Stable Diffusion o Flux para la generación pura de texto-a-imagen.

Texto alternativo de ALT Text Artist GPT
Modelos como DALL·E, Stable Diffusion, Midjourney o Flux funcionan muy bien para ciertas tareas de generación de imágenes, como obtener fotos realistas, simular estilos artísticos e incluso la edición avanzada de imágenes con herramientas como ControlNet, pero son bastante limitadas al combinarse con tareas lingüísticas complejas. A lo largo de los dos últimos años escribiendo artículos para este blog, he mostrado varias veces cómo las herramientas de IA de "estado del arte" no son tan listas como solemos pensar, y que se vuelven aún más tontas cuanto más "multimodales" se vuelven: GPT-4 no era bueno entendiendo bromas; Los LLM multimodales de Wild Vision Arena no eran tan inteligentes como un Redditor al azar; Grok tiene un buen sentido del humor, pero es un completo idiota cuando se trata de analizar gráficos financieros.…

Texto alternativo de ALT Text Artist GPT
El repentino resurgimiento del discurso en torno a las imágenes generadas por IA, provocado por el lanzamiento de Gemini 2.0 Flash, se puede atribuir no a la calidad de las imágenes en sí, sino a la eficacia en las llamadas a funciones y el procesamiento que ocurre por detrás cuando envías prompts la interfaz de chat: añadir chocolate a mi croissant, poner más dinero en la gráfica, dejando el resto intacto, eliminar esta marca de agua de "Shutterstock"… Debemos reconocer que Google ha alcanzado con Gemini 2.0 Flash el máximo nivel de comprensión multimodal hasta el momento, superando a cualquier otra herramienta de chatbot que hayamos visto. Aquí hay algunos ejemplos de cómo experimenté con... Google AI Studio en su interfaz visual:

Texto alternativo de ALT Text Artist GPT

Texto alternativo de ALT Text Artist GPT
No hay nada en Google AI Studio y Gemini 2.0 Flash que no se pueda lograr con otros modelos de difusión, técnicas de prompts de texto-a-imagen y herramientas de IA avanzadas como ControlNet. Algunos escépticos de la IA podrían argumentar, con razón, que se puede lograr mucho de eso con herramientas "clásicas" como Photoshop o GIMP, junto con una dosis significativa de creatividad humana.
Incluso OpenAI incorporó en su momento algunas funcionalidades interesantes, como la edición de retoques, en la aplicación ChatGPT. Sin embargo, los usuarios experimentados encontraron estas herramientas lentas, limitadas y aburridas en comparación con alternativas más potentes, aunque más difíciles de aprender. Aquí hay un comentario que publiqué en X comparando la generación de imágenes con Stable Diffusion en mi ordenador con la demo de edición de imágenes vergonzosamente lenta (sí, la demo "falsificable") que compartió OpenAI cuando lanzó la funcionalidad:
Bien podría ser un anuncio de GPU Nvidia... 8 GB de VRAM, 12 imágenes, 40 segundos de texto a imagen + 32 segundos de pintura: foto.twitter.com/qa9bKgDaqw
— David GR (@dgromero) 4 de abril de 2024
Gemini 2.0 Flash de Google,el último "hype" en IA generativa
No sorprende que el mundo de la IA haya recibido con gran entusiasmo Gemini 2.0 Flash, calificándolo como un potencial punto de inflexión. Esta es solo una de las muchas publicaciones en redes sociales que alimentan el hype:

Texto alternativo de ALT Text Artist GPT
Puedes probar Gemini 2.0 Flash en Google AI Studio, la aplicación de Gemini, o ejecutar mi notebook de Google Colab. Para inspirarte sobre qué probar y leer más, puedes leer el artículo generado por IA que publiqué en Perplexity:
Gemini 2.0 Flash de Google: un gran avance en la IA multimodal

Un Jupyter notebook de Google Colab para probar tu clave API de Gemini y enviar prompts con código
La alteración de caras en fotos es seguramente uno de los usos más populares de los modelos de imágenes de inteligencia artificial. Innumerables sitios web y aplicaciones se basan esencialmente en llamadas API a un modelo de difusión, combinadas con una sencilla interfaz de usuario. Esto responde a la facilidad con la que se pueden encontrar casos prácticos interesantes para manipular imágenes, aunque no todos seamos expertos en el uso de herramientas avanzadas de IA. El último modelo de Gemini, una vez más, no hace nada que no se pueda hacer con otros, pero agiliza significativamente el proceso, abre nuevos usos increíblemente fáciles y ayuda a cubrir la brecha entre herramientas complejas como Photoshop o Stable Diffusion Web UI con las apps y webs que mencioné anteriormente: los "AI wrappers" que proliferan en Internet.
Para concluir este post, pensé que sería interesante conectar algunas aplicaciones divertidas y sencillas de Gemini 2.0 Flash, como la alteración de caras, con los clichés corporativos y el contenido típico de LinkedIn con el que empezó. Aquí comparto una viñeta que encontré en Pinterest, a la que pensé en darle un cambio de "look" para explorar lo que podemos hacer con este nuevo juguete de IA:

Texto alternativo de ALT Text Artist GPT
Como mencioné anteriormente, puse todos estos ejemplos en un Jupyter Notebook, que puedes conectar fácilmente a tu clave API de Gemini (a día de hoy, el nivel de uso gratuito y sus límites de uso es bastante "generoso") y llamar al modelo con código Python, lo que te permite usarlo de una manera más personalizada y flexible que la interfaz de usuario de Google AI Studio. Sólo por si te gusta programar como a mí... Puedes hacer clic aquí para ejecutar el notebook tú mismo en Google Colab, o copiar el código del Gist a continuación y ejecutarlo en otro lugar:
…Y entonces llegó OpenAI y la fiebre del Ghibli
Apenas unos días después de publicar este post, OpenAI lanzó una importante actualización de su modelo de generación de imágenes: 4o image generation. Con esta nueva versión, OpenAI definitivamente parece alejarse de la marca «DALL·E», centrándose en integrar la generación y edición de imágenes en la interfaz ChatGPT. Esto es claramente una respuesta directa al rompedor modelo Gemini que hemos visto en este post.
También preparé una página de Perplexity sobre la tendencia viral de las imágenes al estilo Studio Ghibli , para quienes hayan estado viviendo en una cueva remota sin acceso a redes sociales durante este tiempo. Si prefieres saltarte el "slop", puedo resumirlo con una versión (al estilo de Ghibli) de un meme que puse aquí cuando hablé de OpenAI o1:

Texto alternativo de ALT Text Artist GPT
Como casi todos, he estado experimentando con el modelo de ChatGPT (aún no disponible en la API de OpenAI al momento de escribir esto), pero detallar mis impresiones, opiniones y compararlo con Gemini 2.0 Flash requeriría un post completamente nuevo. Dado que probablemente nunca tendré tiempo para eso, terminaré esta actualización con un "mashup" de modelos... Aquí está mi versión definitiva del "Meme de la Entrevista de la Mayor Debilidad". Ghiblificado con ChatGPT, editado con Gemini:

Texto alternativo de ALT Text Artist GPT
Una función muy útil en ChatGPT, significativamente mejorada después de la última actualización, es el "inpainting", o la capacidad de seleccionar una parte específica de la imagen que queremos modificar, mientras mantenemos el resto (casi al 100%) sin cambios:

Texto alternativo de ALT Text Artist GPT
En Google AI Studio, podemos probar el mismo enfoque, que suele dar buenos resultados. Sin embargo, no hay una interfaz visual para seleccionar manualmente, por lo que lo confiamos todo al "prompt", lo cual es una limitación. Sin embargo, fue más que suficiente para realizar una pequeña edición en el cómic para mantener la coherencia de los personajes:

Texto alternativo de ALT Text Artist GPT
Dejando de lado los memes y el hype, hay que reconocer a OpenAI el mérito por desarrollar las mejores interfaces de usuario para modelos de IA generativa y una notable capacidad para acercarlos a "las masas".

Texto alternativo de ALT Text Artist GPT
El "Outpainting" es otra funcionalidad crucial en la generación de imágenes de IA que normalmente solo era posible con herramientas avanzadas con modelos de código abierto, como Stable Diffusion web UI y ComfyUI. En la última actualización de ChatGPT, extender una imagen cuadrada a una imagen de 16:9 implica escribir un simple prompt: "Extiende los lados para que sea una imagen de 16:9, manteniendo la escena y la configuración intactas".

Texto alternativo de ALT Text Artist GPT
Deja una respuesta