Needs vs Wants: Work Life Thoughts and Gemini 2.0 Flash Infographics

Necesidad vs. Deseo
IA que crea infografías, elimina marcas de agua… ¿Más "slop" o "Photoshop killer"?
Gemini 2.0 Flash de Google: la última máquina de publicidad de IA
Un Jupyter notebook de Google Colab para probar tu clave API de Gemini y enviar prompts con código
…Y entonces llegó OpenAI y la fiebre del Ghibli

Cuando voy a eventos de "networking", mucha gente me pregunta con qué me gano la vida.

Screenshot of a Twitter (now X) post showing a tweet by the account "memes.xlsx" (@ExcelHumor) dated 10/12/23, which reads, "poorly explain what you do for a living." Below it is a reply from the verified user David G. R. (@dgromero), stating, "Like every other human, I eat for a living; otherwise, I would die. To facilitate payments for the food and shelter I have needed to live so far, my major sources of income have come from wages in IT and finance businesses, among others." The interface includes engagement metrics such as replies, retweets, and likes.Alt text by ALT Text Artist GPT — Captura de pantalla de una publicación de X que muestra un tuit de @ExcelHumor que dice: "Explica mal cómo te ganas la vida". A continuación, una respuesta de @dgromero que dice: "Como cualquier otra persona, como para vivir; si no, moriría. Para poder pagar la comida y el alojamiento que he necesitado hasta ahora, mis principales fuentes de ingresos provienen de salarios en empresas de informática y finanzas, entre otras". Publicado en x.com

Aunque evito la brutal honestidad de la declaración pasivo-agresiva anterior, creo que la gente "del mundillo" de la empresa plantea esa pregunta, así como muchas otras, desde el ángulo equivocado.

El reclutador que pone un sueldo sobre la mesa, el entrevistado quien demanda un trabajo que pague ese dinero, el vendedor que consigue que otros pongan otro tipo de dinero sobre la mesa, o el comprador corporativo que vela por que ese dinero se gaste bien. Todos tienden a caer en la misma trampa. Actúan según lo que creen necesitar y asumen que la otra parte también actuará según esas necesidades percibidas, ignorando que sus acciones son clara y objetivamente una cuestión de deseos, en absoluto de necesidades.

Screen capture of a DuckDuckGo image search results page for "needs vs wants." The search bar at the top displays the query, with filter options for language, time, size, color, type, layout, and license settings. The results include various infographic-style images, diagrams, and illustrations comparing needs and wants, often using text, arrows, and icons. Some images feature split-screen designs, while others use objects such as road signs or blocks labeled "needs" and "wants." Many images contain educational content, such as lists and worksheets, to explain the differences between needs and wants.Alt text by ALT Text Artist GPT — Captura de pantalla de una página de resultados de búsqueda de imágenes de DuckDuckGo para "necesidades vs. deseos". Los resultados incluyen diversas imágenes, diagramas e ilustraciones de estilo infográfico que comparan necesidades y deseos, a menudo con texto, flechas e iconos. Algunas imágenes presentan diseños de pantalla dividida, mientras que otras utilizan objetos como señales de tráfico o bloques etiquetados como "necesidades" y "deseos". Muchas imágenes contienen contenido educativo, como listas y hojas de trabajo, para explicar las diferencias entre necesidades y deseos.
Texto alternativo de ALT Text Artist GPT

Referir algunas de esas coloridas infografías y artículos web de autoayuda que explican la diferencia también podría parecer un poco "pasivo-agresivo", así que yo lo cuento de la siguiente manera:

Necesidad vs. Deseo

Si eres un trabajador y te consideras “necesitado”, no necesitas un trabajo. Necesitas el salario, además de cualquier otro beneficio material o inmaterial que ofrezca el trabajo. Además, es posible que desees un trabajo concreto que te los proporcione.
Si eres propietario o accionista de un negocio y te consideras "necesitado", no necesitas un cliente que compre lo que vendes o un empleado que sirva a ese cliente. Lo que necesitas son beneficios, dividendos o valor para el accionista, además de cualquier otro beneficio material o inmaterial que la empresa provee como consecuencia de tener esos clientes y empleados. Además, puedes desear que alguien en particular sea tu cliente o le de sercivio, para que la empresa te proporcione a ti lo que necesitas.
Si eres alguno de los anteriores pero te consideras privilegiado, además de ser una rareza, no eres diferente de los demás y probablemente sólo quieras las mismas cosas. Tu estatus puede cambiar lo que necesitas en el corto plazo, pero no cambia lo que deseas. Quizás también quieras mantener un trabajo concreto, tener a alguien como cliente o contratar a una persona específica para tu negocio. La "necesidad" no cambia nada, independientemente de que te consideres necesitado o no.
Mi opinión, como alguien que se siente privilegiado (por el entorno en el que nací, la educación y la experiencia laboral que he tenido, y las actuales, aunque cambiantes, circunstancias de la vida), es que la mayoría de la gente en el trabajo y en los negocios ganarían mucho, no de pensar en sus propios privilegios o necesidades, sino de dejar de pensar en si los demás tienen necesidades o son privilegiados. Realmente no cambia nade. Aun así, la mayoría de la gente tiende a mirar a los demás desde esa perspectiva.
Publicado originalmente en LinkedIn, en inglés.

IA que crea infografías, elimina marcas de agua… ¿Más "slop" o "Photoshop killer"?

¡Un momento! Este sitio web se llama "Charlas con Chatbots". Quizás te preguntes dónde están los chatbots. Pensé que el tema de "necesidades vs. deseos" sería una buena manera de poner a prueba a los LLM multimodales. Es esa etapa intermedia entre los prompts "tradicionales" de texto-a-imagen y tener una "conversación" con un chatbot, donde esperas una imagen en lugar de una respuesta de texto, o quizás una combinación de ambas.

Desde que DALL·E está integrado con ChatGPT, uno de mis divertimentos favoritos con estas herramientas ha sido pedir infografías. Más allá de los textos absurdos, pero entendibles, incrustados en las imágenes, a veces resulta divertidísimo ver cómo los datos de entrenamiento de millones de artículos de internet, como los de la captura de pantalla de DuckDuckGo que compartí antes, se traducen en imágenes creadas por modelos de difusión. Tal fue el caso de las infografías satíricas generadas por DALL·E que compartí en redes sociales hace mucho tiempo ya: el "Criptobrobot", y la Infografía de 'Estrategias para hacerse rico'. Aquí tienes una infografía de DALL·E sobre "Necesidades vs. Deseos". No me pregunten por qué se colocó "ropa de diseñador", y una caricatura de lo que parece ser una mujer usándola, en la columna izquierda.

Image generated with DALL·E showing a split design with a blue left side labeled "NEEDS" and a green right side labeled "WANTS." The left side contains icons of a house, burger, water bottle, plate of food, ice cream, various vehicles, a medical kit, a person, and a phone. The right side contains icons of a sweater, jacket, sunglasses, a clock, a smartphone, a car, a sun, a stereo, a heart symbol, a watch, and a dollar bill. Text labels accompany each icon.Alt text by ALT Text Artist GPT — “Necesidades vs. Deseos”. Imagen generada con DALL·E

Y aquí tienes un par de infografías más "minimalistas" que hice con Gemini 2.0 Flash native image generation, el modelo del que todos en la cámara de resonancia de la IA hablaban mientras escribía este artículo:

Image generated with Gemini 2.0 Flash showing a comparison labeled "NEEDS VS WANTS" at the top. The left side is labeled "FOOD" and "MONEY," depicting a single large dollar bill with a tray of food and a coffee cup on top. The right side is labeled "MORE FOOD" and "MORE MONEY," showing multiple overlapping dollar bills.Alt text by ALT Text Artist GPT — Necesidades vs. Deseos. Creado con Gemini 2.0 Flash image generation

Image with a "NEEDS VS WANTS" comparison, divided into two sections. The left side has a light blue background and is labeled "FOOD," displaying a plate with a sandwich and a brown bread sandwich. The right side has a yellow background and is labeled "MORE FOOD" and "MORE MONEY," featuring multiple stacks of green banknotes.Alt text by ALT Text Artist GPT — Imagen con una comparación de "NECESIDADES VS. DESEOS", dividida en dos secciones. La izquierda tiene un fondo azul claro y está etiquetada como "COMIDA", mostrando un plato con un sándwich y un sándwich de pan integral. La derecha tiene un fondo amarillo y está etiquetada como "MÁS COMIDA" y "MÁS DINERO", mostrando varios fajos de billetes verdes.
Texto alternativo de ALT Text Artist GPT

Si lo que necesitas es dinero y comida, lo que quieres es más comida y más dinero. Aprecio tu honestidad, y tu simplificada perspectiva de la jerarquía de necesidades de Maslow, Gemini. Por si te lo preguntas, la broma no fue idea de Gemini. De hecho, enviar el mismo prompt que usé con DALL·E solía dar lugar a resultados repetitivos, aburridos y sin sentido. Aunque Imagen 3 (el modelo de difusión detrás de Gemini 2.0 Flash) es una buena opción, sigo prefiriendo DALL·E, Stable Diffusion o Flux para la generación pura de texto-a-imagen.

Screen capture of a Windows Explorer window displaying multiple image files with filenames related to "Needs vs Wants." The thumbnails show various graphical comparisons of needs and wants, with different layouts, colors, and icon styles. Some images contain text such as "NEEDS VS WANTS," "FOOD," "MONEY," and "MORE MONEY." The file names are visible, including variations like "needs_vs_wants_1.png," "needs_vs_wants_series_4.png," and "food-more-food.png."Alt text by ALT Text Artist GPT — Captura de pantalla de una ventana del Explorador de Windows que muestra varias imágenes con nombres relacionados con "Necesidades vs. Deseos". Las miniaturas muestran diversas comparaciones gráficas de necesidades y deseos, con diferentes diseños, colores y estilos de iconos. Algunas imágenes contienen texto como "NECESIDADES vs. DESEOS", "COMIDA", "DINERO" y "MÁS DINERO".
Texto alternativo de ALT Text Artist GPT

Modelos como DALL·E, Stable Diffusion, Midjourney o Flux funcionan muy bien para ciertas tareas de generación de imágenes, como obtener fotos realistas, simular estilos artísticos e incluso la edición avanzada de imágenes con herramientas como ControlNet, pero son bastante limitadas al combinarse con tareas lingüísticas complejas. A lo largo de los dos últimos años escribiendo artículos para este blog, he mostrado varias veces cómo las herramientas de IA de "estado del arte" no son tan listas como solemos pensar, y que se vuelven aún más tontas cuanto más "multimodales" se vuelven: GPT-4 no era bueno entendiendo bromas; Los LLM multimodales de Wild Vision Arena no eran tan inteligentes como un Redditor al azar; Grok tiene un buen sentido del humor, pero es un completo idiota cuando se trata de analizar gráficos financieros.…

Screen capture of an X (formerly Twitter) post by user George Arrowsmith (@ThatArrowsmith). The post states, "Just discovered a fantastic new use for Google Gemini Flash 2.0 Image Generation:" and includes two images of a man in a kitchen reading from a tablet. The first image has a "Shutterstock" watermark, while the second image is the same but with the watermark removed. A text box between the images reads, "Remove the 'Shutterstock' watermark from this image." The post has engagement metrics at the bottom, showing views, likes, retweets, and comments.Alt text by ALT Text Artist GPT — Captura de pantalla de un post en X de George Arrowsmith (@ThatArrowsmith). El post dice: «Acabo de descubrir un nuevo y fantástico uso para la generación de imágenes de Google Gemini Flash 2.0» e incluye dos imágenes de un hombre en una cocina leyendo en una tableta. La primera imagen tiene una marca de agua de «Shutterstock», mientras que la segunda es igual, pero sin la marca de agua. Un cuadro de texto entre las imágenes dice: «Eliminar la marca de agua de «Shutterstock» de esta imagen».
Texto alternativo de ALT Text Artist GPT

El repentino resurgimiento del discurso en torno a las imágenes generadas por IA, provocado por el lanzamiento de Gemini 2.0 Flash, se puede atribuir no a la calidad de las imágenes en sí, sino a la eficacia en las llamadas a funciones y el procesamiento que ocurre por detrás cuando envías prompts la interfaz de chat: añadir chocolate a mi croissant, poner más dinero en la gráfica, dejando el resto intacto, eliminar esta marca de agua de "Shutterstock"… Debemos reconocer que Google ha alcanzado con Gemini 2.0 Flash el máximo nivel de comprensión multimodal hasta el momento, superando a cualquier otra herramienta de chatbot que hayamos visto. Aquí hay algunos ejemplos de cómo experimenté con... Google AI Studio en su interfaz visual:

Screen capture of Google AI Studio showing an image generation process using the Gemini 2.0 Flash model. The interface displays a project titled "Adding Banknotes Right Side." Three versions of an image labeled "NEEDS VS WANTS" are shown, with progressive modifications based on text prompts. The first version features a single banknote stack on each side, the second adds more banknotes on the right, and the third introduces food on the left while increasing food on the right. The right panel displays model settings, including token count, temperature, and advanced options.Alt text by ALT Text Artist GPT — Captura de pantalla de Google AI Studio que muestra un proceso de generación de imágenes con el modelo Flash de Gemini 2.0. La interfaz muestra un proyecto titulado "Añadir billetes al lado derecho". Se muestran tres versiones de una imagen titulada "NECESIDADES VS. DESEOS", con modificaciones progresivas según indicaciones de texto. La primera versión presenta una pila de billetes a cada lado, la segunda añade más billetes a la derecha y la tercera introduce comida a la izquierda y aumenta la de la derecha. El panel derecho muestra la configuración del modelo, incluyendo el recuento de fichas, la temperatura y las opciones avanzadas.
Texto alternativo de ALT Text Artist GPT

Screen capture of Google AI Studio displaying an image generation process using the Gemini 2.0 Flash model. The project is titled "Branch of Adding Banknotes Right Side." The interface shows multiple iterations of an image labeled "NEEDS VS WANTS," progressively modified based on text prompts. The first version features food and money on the left, with more money on the right. The second version increases the amount of food on the right while keeping the rest unchanged. The right panel contains model settings such as token count, temperature, and advanced options.Alt text by ALT Text Artist GPT — Captura de pantalla de Google AI Studio que muestra un proceso de generación de imágenes con el modelo Flash de Gemini 2.0. El proyecto se titula "Rama de Adición de Billetes al Lado Derecho". La interfaz muestra múltiples iteraciones de una imagen denominada "NECESIDADES VS. DESEOS", modificada progresivamente según indicaciones de texto. La primera versión muestra comida y dinero a la izquierda, y más dinero a la derecha. La segunda versión aumenta la cantidad de comida a la derecha, manteniendo el resto sin cambios. El panel derecho contiene ajustes del modelo, como el recuento de fichas, la temperatura y las opciones avanzadas.
Texto alternativo de ALT Text Artist GPT

No hay nada en Google AI Studio y Gemini 2.0 Flash que no se pueda lograr con otros modelos de difusión, técnicas de prompts de texto-a-imagen y herramientas de IA avanzadas como ControlNet. Algunos escépticos de la IA podrían argumentar, con razón, que se puede lograr mucho de eso con herramientas "clásicas" como Photoshop o GIMP, junto con una dosis significativa de creatividad humana.

Incluso OpenAI incorporó en su momento algunas funcionalidades interesantes, como la edición de retoques, en la aplicación ChatGPT. Sin embargo, los usuarios experimentados encontraron estas herramientas lentas, limitadas y aburridas en comparación con alternativas más potentes, aunque más difíciles de aprender. Aquí hay un comentario que publiqué en X comparando la generación de imágenes con Stable Diffusion en mi ordenador con la demo de edición de imágenes vergonzosamente lenta (sí, la demo "falsificable") que compartió OpenAI cuando lanzó la funcionalidad:

Bien podría ser un anuncio de GPU Nvidia... 8 GB de VRAM, 12 imágenes, 40 segundos de texto a imagen + 32 segundos de pintura: foto.twitter.com/qa9bKgDaqw
— David GR (@dgromero) 4 de abril de 2024

Gemini 2.0 Flash de Google,el último "hype" en IA generativa

No sorprende que el mundo de la IA haya recibido con gran entusiasmo Gemini 2.0 Flash, calificándolo como un potencial punto de inflexión. Esta es solo una de las muchas publicaciones en redes sociales que alimentan el hype:

Screen capture of an X (formerly Twitter) post by user Deedy (@deedydas). The post discusses Google's new AI image editing model, stating that it could replace 99% of Photoshop. A list follows, describing various image editing capabilities such as generating passport photos, altering appearances, decorating houses, animating sprites, and modifying hair. The post mentions that Gemini Flash 2.0 experimental is accessible on Google AI Studio and concludes with a statement about the product's potential. Engagement metrics, including views, comments, retweets, and likes, are visible at the bottom.Alt text by ALT Text Artist GPT — Captura de pantalla de una publicación de X (anteriormente Twitter) del usuario Deedy (@deedydas). La publicación analiza el nuevo modelo de edición de imágenes con IA de Google, afirmando que podría reemplazar a 99% de Photoshop. A continuación, se incluye una lista que describe diversas funciones de edición de imágenes, como generar fotos de pasaporte, modificar apariencias, decorar casas, animar sprites y modificar el cabello. La publicación menciona que Gemini Flash 2.0 experimental está disponible en Google AI Studio y concluye con una declaración sobre el potencial del producto. Las métricas de interacción, como visualizaciones, comentarios, retuits y "me gusta", se muestran en la parte inferior.
Texto alternativo de ALT Text Artist GPT

Puedes probar Gemini 2.0 Flash en Google AI Studio, la aplicación de Gemini, o ejecutar mi notebook de Google Colab. Para inspirarte sobre qué probar y leer más, puedes leer el artículo generado por IA que publiqué en Perplexity:

Gemini 2.0 Flash de Google: un gran avance en la IA multimodal

Un Jupyter notebook de Google Colab para probar tu clave API de Gemini y enviar prompts con código

La alteración de caras en fotos es seguramente uno de los usos más populares de los modelos de imágenes de inteligencia artificial. Innumerables sitios web y aplicaciones se basan esencialmente en llamadas API a un modelo de difusión, combinadas con una sencilla interfaz de usuario. Esto responde a la facilidad con la que se pueden encontrar casos prácticos interesantes para manipular imágenes, aunque no todos seamos expertos en el uso de herramientas avanzadas de IA. El último modelo de Gemini, una vez más, no hace nada que no se pueda hacer con otros, pero agiliza significativamente el proceso, abre nuevos usos increíblemente fáciles y ayuda a cubrir la brecha entre herramientas complejas como Photoshop o Stable Diffusion Web UI con las apps y webs que mencioné anteriormente: los "AI wrappers" que proliferan en Internet.

Para concluir este post, pensé que sería interesante conectar algunas aplicaciones divertidas y sencillas de Gemini 2.0 Flash, como la alteración de caras, con los clichés corporativos y el contenido típico de LinkedIn con el que empezó. Aquí comparto una viñeta que encontré en Pinterest, a la que pensé en darle un cambio de "look" para explorar lo que podemos hacer con este nuevo juguete de IA:

Image with two sections. The left side contains the original version of a meme, while the right side is a modified version where faces have been changed using Gemini Flash 2.0 image generation. Speech bubbles were added afterward. Both sides depict a job interview setting with two sequences. In both versions, the top part shows a man and a woman interviewing a candidate. The interviewer asks, "What is your greatest weakness?" The candidate responds, "Honesty." The interviewer replies, "I don't think honesty is a weakness..." The bottom part in both versions shows the candidate smiling and saying, "I don't give a f*** what you think." In the right-side version, the candidate is a bald man while keeping the layout and text the same.Alt text by ALT Text Artist GPT — Imagen con dos secciones. El lado izquierdo contiene la versión original de un meme, mientras que el lado derecho es una versión modificada donde se cambiaron las caras usando la generación de imágenes de Gemini Flash 2.0. Posteriormente se añadieron bocadillos de diálogo. Ambos lados representan el escenario de una entrevista de trabajo con dos secuencias. En ambas versiones, la parte superior muestra a un hombre y una mujer entrevistando a un candidato. El entrevistador pregunta: "¿Cuál es tu mayor debilidad?". El candidato responde: "La honestidad". El entrevistador responde: "No creo que la honestidad sea una debilidad...". La parte inferior en ambas versiones muestra al candidato sonriendo y diciendo: "Me importa una m* lo que pienses". En la versión del lado derecho, el candidato es un hombre calvo, manteniendo el diseño y el texto.
Texto alternativo de ALT Text Artist GPT

Como mencioné anteriormente, puse todos estos ejemplos en un Jupyter Notebook, que puedes conectar fácilmente a tu clave API de Gemini (a día de hoy, el nivel de uso gratuito y sus límites de uso es bastante "generoso") y llamar al modelo con código Python, lo que te permite usarlo de una manera más personalizada y flexible que la interfaz de usuario de Google AI Studio. Sólo por si te gusta programar como a mí... Puedes hacer clic aquí para ejecutar el notebook tú mismo en Google Colab, o copiar el código del Gist a continuación y ejecutarlo en otro lugar:

…Y entonces llegó OpenAI y la fiebre del Ghibli

Apenas unos días después de publicar este post, OpenAI lanzó una importante actualización de su modelo de generación de imágenes: 4o image generation. Con esta nueva versión, OpenAI definitivamente parece alejarse de la marca «DALL·E», centrándose en integrar la generación y edición de imágenes en la interfaz ChatGPT. Esto es claramente una respuesta directa al rompedor modelo Gemini que hemos visto en este post.

También preparé una página de Perplexity sobre la tendencia viral de las imágenes al estilo Studio Ghibli , para quienes hayan estado viviendo en una cueva remota sin acceso a redes sociales durante este tiempo. Si prefieres saltarte el "slop", puedo resumirlo con una versión (al estilo de Ghibli) de un meme que puse aquí cuando hablé de OpenAI o1:

Cartoon illustration of a job interview where a bald character responds to the question What is your biggest strength with the word Hype, followed by a handshake scene where the interviewer, now smiling, says You're hired with a large OpenAI sign on the wall behind themAlt text by ALT Text Artist GPT — Caricatura de una entrevista de trabajo donde un personaje calvo responde a la pregunta "¿Cuál es tu mayor fortaleza?" con la palabra "Hype", seguido de una escena de apretón de manos donde el entrevistador sonriente dice "Estás contratado", con un gran cartel de OpenAI visible en la pared detrás de ellos
Texto alternativo de ALT Text Artist GPT

Como casi todos, he estado experimentando con el modelo de ChatGPT (aún no disponible en la API de OpenAI al momento de escribir esto), pero detallar mis impresiones, opiniones y compararlo con Gemini 2.0 Flash requeriría un post completamente nuevo. Dado que probablemente nunca tendré tiempo para eso, terminaré esta actualización con un "mashup" de modelos... Aquí está mi versión definitiva del "Meme de la Entrevista de la Mayor Debilidad". Ghiblificado con ChatGPT, editado con Gemini:

Cartoon illustration of a job interview with two panels; in the top panel, a male interviewer holding a sheet of paper asks What is your greatest weakness while a female interviewer looks surprised as the candidate responds with Honesty, followed by the woman saying I don’t think honesty is a weakness; in the bottom panel, the candidate, now smiling and leaning forward, says I don’t give a f*** what you think while facing the woman seated with her back to the viewer, with a bookshelf and window in the backgroundAlt text by ALT Text Artist GPT — Ilustración de una entrevista de trabajo con dos viñetas. En la viñeta superior, un entrevistador con una hoja de papel pregunta: "¿Cuál es tu mayor debilidad?". Una entrevistadora se sorprende al ver al candidato responder: "La honestidad". La entrevistadora responde: "No creo que la honestidad sea una debilidad". En la viñeta inferior, el candidato, ahora sonriendo e inclinado hacia adelante, dice: "Me importa un bledo lo que pienses", mientras mira a la mujer sentada de espaldas al espectador.
Texto alternativo de ALT Text Artist GPT

Una función muy útil en ChatGPT, significativamente mejorada después de la última actualización, es el "inpainting", o la capacidad de seleccionar una parte específica de la imagen que queremos modificar, mientras mantenemos el resto (casi al 100%) sin cambios:

Screen capture of the ChatGPT image editor interface showing a cartoon-style scene where a man in a suit is speaking with a woman seated across a desk, viewed from behind. A blue selection mask outlines the back of the woman’s head and upper shoulders. The instruction "make the lady’s hair slightly longer" is typed in the input field at the bottom of the interface. A circular upward arrow icon, used to submit the prompt and generate the edited image, appears in the lower-right corner.Alt text by ALT Text Artist GPT — Captura de pantalla de la interfaz del editor de imágenes ChatGPT que muestra una escena de dibujos animados donde un hombre de traje habla con una mujer sentada frente a un escritorio, vista desde atrás. Una máscara de selección azul delinea la parte posterior de la cabeza y la parte superior de los hombros de la mujer. La instrucción "alargar un poco el cabello de la mujer" se escribe en el campo de entrada en la parte inferior de la interfaz. En la esquina inferior derecha aparece una flecha circular hacia arriba, que se utiliza para enviar la solicitud y generar la imagen editada.
Texto alternativo de ALT Text Artist GPT

En Google AI Studio, podemos probar el mismo enfoque, que suele dar buenos resultados. Sin embargo, no hay una interfaz visual para seleccionar manualmente, por lo que lo confiamos todo al "prompt", lo cual es una limitación. Sin embargo, fue más que suficiente para realizar una pequeña edición en el cómic para mantener la coherencia de los personajes:

Screen capture of the Google AI Studio interface showing an image generation task using the Gemini 2.0 Flash model. The prompt "Make the lady’s hair slightly longer and voluminous, keeping the rest of the image untouched" is displayed above the generated result. The interface shows a before-and-after comparison of a cartoon-style office scene where the woman’s hairstyle is modified in the output image. The right panel displays run settings including output format, token count, temperature slider, and advanced settings.Alt text by ALT Text Artist GPT — Captura de pantalla de la interfaz de Google AI Studio que muestra una tarea de generación de imágenes con el modelo Gemini 2.0 Flash. El mensaje "Alargar y dar volumen al cabello de la mujer, manteniendo el resto de la imagen intacto" aparece sobre el resultado generado. La interfaz muestra una comparación del antes y el después de una escena de oficina con estilo de dibujos animados, donde el peinado de la mujer se modifica en la imagen de salida. El panel derecho muestra la configuración de la ejecución, incluyendo el formato de salida, el recuento de tokens, el control deslizante de temperatura y la configuración avanzada.
Texto alternativo de ALT Text Artist GPT

Dejando de lado los memes y el hype, hay que reconocer a OpenAI el mérito por desarrollar las mejores interfaces de usuario para modelos de IA generativa y una notable capacidad para acercarlos a "las masas".

Screen capture of the ChatGPT interface showing an image generation result based on the prompt: "Restyle the photo into ghibli art style." The original photo at the top shows two interviewers and a candidate in a modern office setting. Below, the generated image replicates the same scene in a Ghibli-style illustration, with the same composition and characters rendered in hand-drawn animation style.Alt text by ALT Text Artist GPT — Captura de pantalla de la interfaz de ChatGPT que muestra el resultado de la generación de imágenes según la instrucción: "Remodelar la foto al estilo Ghibli". La foto original, en la parte superior, muestra a dos entrevistadores y un candidato en una oficina moderna. Abajo, la imagen generada reproduce la misma escena en una ilustración al estilo Ghibli, con la misma composición y personajes renderizados con animación a mano.
Texto alternativo de ALT Text Artist GPT

El "Outpainting" es otra funcionalidad crucial en la generación de imágenes de IA que normalmente solo era posible con herramientas avanzadas con modelos de código abierto, como Stable Diffusion web UI y ComfyUI. En la última actualización de ChatGPT, extender una imagen cuadrada a una imagen de 16:9 implica escribir un simple prompt: "Extiende los lados para que sea una imagen de 16:9, manteniendo la escena y la configuración intactas".

Necesidades vs. deseos: Reflexiones sobre la vida laboral e infografías con Gemini 2.0 Flash

Necesidad vs. Deseo

IA que crea infografías, elimina marcas de agua… ¿Más "slop" o "Photoshop killer"?

Gemini 2.0 Flash de Google,el último "hype" en IA generativa

Un Jupyter notebook de Google Colab para probar tu clave API de Gemini y enviar prompts con código

…Y entonces llegó OpenAI y la fiebre del Ghibli

Deja una respuesta Cancelar la respuesta