Generación de imágenes utilizables con IA
5 consejos para generar imágenes GenAI utilizables

Introducción
Como mencionamos en nuestro post anterior, GenAI no es fiable. Además de confiar en las reglas empresariales para controlar este problema, también podemos intentar mejorar el proceso de generación en cierto sentido.
En este post presentamos un par de técnicas y trucos para mejorar/detectar problemas, específicamente para el caso de la generación de imágenes.
Desde una perspectiva empresarial, hacer que la IA generativa sea más fiable, como ya se ha mencionado, nos permite tomar diferentes caminos: optar por no participar, reducir la participación humana, etc. Además, desbloquea algunas aplicaciones que no serían posibles con modelos menos fiables, como la automatización.
Para comenzar con nuestra revisión del proceso de generación de imágenes, empecemos con la configuración más simple: una máquina ejecuta un modelo y genera imágenes.
Dada esta sencilla configuración, nuestras opciones son bastante limitadas. Podemos hacer lo mismo mejorar la fiabilidad del modelo o podemos seleccionar y ajustar las imágenes ya generadas. En las siguientes secciones presentamos algunos enfoques que abordan estos dos aspectos.
Advertencia: el futuro se acerca rápidamente
Antes de presentar estos trucos, debemos abordar el problema. El futuro está llegando... ¡y se acerca rápido! Prevalece la tendencia de que están surgiendo modelos más grandes y mejores a diestra y siniestra. La evidencia indica que los modelos más grandes pueden superar los problemas y las limitaciones que antes se encontraban en los modelos más pequeños.

Comparación de los resultados de modelos con diferentes números de parámetros.
Por lo tanto, dado que el panorama cambia constantemente, tenga esto en cuenta: además de los consejos que compartiremos más adelante, la clave es pensar de forma creativa, mantenerse actualizado y aportar valor a la próxima versión importante del modelo.
Consejo 1: Utilice modelos ajustados en lugar de modelos convencionales
Si quieres crear imágenes para un propósito específico, normalmente es es mejor usar un modelo que se haya ajustado para una tarea similar en lugar del modelo original.
Hay varios modelos preentrenados disponibles en línea para diferentes propósitos, como retratos o realismo. Es una buena idea empezar con uno de estos si tu tarea está estrechamente relacionada con esas áreas, ya que es probable que proporcione resultados de mayor calidad.
Si tiene los recursos, también puede afinar uno usted mismo. ¿Qué es mejor que un modelo adaptado a tus necesidades? Hay muchos recursos sobre cómo hacerlo, por ejemplo, esto documento de entrenamiento de Hugging Face o esto guía para principiantes de OctoML.
Consejo 2: Utilice LoRas para realizar ajustes precisos cuando los conjuntos de datos son pequeños
Hemos establecido que el ajuste fino es una alternativa eficaz cuando se trata de generar imágenes para un problema específico. Pero, ¿qué pasa si tu conjunto de datos es muy pequeño? No te preocupes, puedes usar Adaptación de rango bajo.
Es más económico que un ajuste completo, lleva menos tiempo y se puede realizar con conjuntos de datos muy pequeños (rango ≈ 10-200).
También es ideal para «enseñar» conceptos específicos a los modelos, guiando a la generación hacia un ámbito más estrecho y predecible. Si no estás seguro de por dónde empezar, Hugging Face tiene una gran guía con guiones para entrenar tu LoRa para que puedas conectarlo y usarlo.
Consejo 3: Utilice modelos de conversión de texto a imagen entrenados para tareas específicas para controlar sus resultados
¿Qué queremos decir con controlar sus salidas? Bueno, pasemos a un ejemplo empresarial, digamos que necesitas diseñar un anuncio en el que un logotipo o un elemento debe estar en un lugar específico o necesitas que un personaje esté en una pose específica. Básicamente, una imagen que se adhiere a una estructura o composición específica.
Hay excelentes modelos de conversión de texto a imagen que te permiten controlar estas variables y están entrenados para diferentes tareas específicas (incluso puedes entrenar las tuyas propias, pero... necesitas conjuntos de datos muy grandes).
Algunos modelos a tener en cuenta: ControlNet, Adaptador T2I, y Gligen.


Tenga en cuenta que, si bien estos trucos le dan control sobre la salida, podrían reducir la calidad de los resultados, en otras palabras, las imágenes pueden quedar mal. (de nuevo, depende del modelo de texto a imagen subyacente, entre otros factores).
Consejo 4: Considera en qué nos enfocamos en una imagen
Si bien no se usa estrictamente para mejorar las imágenes generadas, los mapas de prominencia proporcionan una herramienta poderosa para evaluar la atención prestada a los diferentes elementos de una imagen. Esto resulta beneficioso de varias maneras: al comprender dónde se centran las personas, puede asignar una importancia variable a los errores en las muestras, identificar las regiones óptimas para incorporar elementos o decidir la dirección de cultivo más adecuada.
Consejo 5: Puntuación y filtro
Por último, pero no por ello menos importante, uno de los métodos más útiles que encontramos fue puntúa las imágenes generadas y clasifica los tipos de error. De esta forma, podríamos abordar cada tipo de error por separado, dividiendo y conquistando, aumentando el porcentaje de imágenes aceptables, identificando patrones y, posteriormente, filtrando las que consideráramos inadecuadas.
La forma más fácil y eficaz que encontramos para implementar este enfoque fue crear heurísticas simples. Examinamos varios casos de fallos y determinamos si existía la posibilidad de eliminar los problemas más críticos.
A continuación, ofrecemos algunos ejemplos de heurísticas de diferentes casos de uso.
Heurística 1: Al generar imágenes con personas, las caras pequeñas tienden a quedar mal
Evaluamos manualmente unos 600 rostros y descubrimos un patrón claro: las caras tienden a tener más errores cuando están en un área pequeña. Por lo tanto, filtrar imágenes que contienen rostros pequeños resulta ser una estrategia convincente.

Gráfico de densidad que muestra la calidad de generación de rostros (de 1 a 5) en comparación con el tamaño (en logaritmos del tamaño de los píxeles), con puntuaciones más altas para las dimensiones más grandes.
Heurística 2: Al generar imágenes con personas, los modelos de detectores de rostros son un buen indicador
También descubrimos que la puntuación de un detector facial estándar puede servir como una métrica sencilla para filtrar imágenes incorrectas. Los detectores de rostros automáticos parecen tener menos confianza en que el resultado sea un rostro cuando el rostro generado tiene problemas. Por lo tanto, naturalmente, podemos aprovechar un modelo de detector facial listo para usar para mantener las puntuaciones por encima de un umbral adecuado (según su caso de uso específico). A continuación, se muestra un gráfico en el que se compara la distribución de confianza de los detectores para diferentes imágenes etiquetadas manualmente según una puntuación humana.

Por lo tanto, los peores infractores pueden ser descartados fácilmente con esta técnica. En el caso de las imágenes con puntuaciones más altas, las distribuciones son demasiado cercanas, por lo que es posible que esto no funcione con muestras «casi correctas».
Heurística 3: Cuando pintes para generar personas, simplemente comprueba los píxeles de la piel
¿Dónde está la cabeza? En un caso de uso específico, tuvimos que actuar como pintores para completar una imagen de camisa con un ser humano. Sin embargo, pronto descubrimos que algunas muestras tenían un problema evidente...

¡A veces, las muestras generadas no tenían cabeza ni brazos! Implementamos la heurística más simple que se nos ocurrió. Solo tienes que comprobar si hay suficientes píxeles del color de la piel en la región. Si hay más de un umbral deseado, supongamos que es una cabeza/brazo. Este truco tan simple logró eliminar una buena cantidad de muestras incorrectas.
Heurística 4: Sondeo de imágenes en busca de semánticas extrañas con modelos multimodales
Una imagen generada puede ser errónea por varias razones. Un problema común es la representación de imposibilidades: anormalidades faciales u objetos que se fusionan a la perfección entre sí. Pero las imágenes también pueden ser erróneas porque no se ajustan a nuestros principios humanos ni a nuestra comprensión del mundo. Para ilustrarlo, considera la siguiente imagen:

Todo lo que pasa en esta imagen es físicamente posible, pero inmediatamente nos sorprende el hecho de que el hombre le apunte con el taladro a la cara, algo que no debes hacer. Pero, ¿cómo lo sabe esa IA?
Los modelos multimodales ofrecen un enfoque prometedor para abordar este problema: conectar imágenes y texto. Por ejemplo, los modelos Blip, si bien requieren mucho hardware, podrían resolver este problema. Lo intentamos, pero no logramos resultados útiles, ni siquiera a la hora de plantear la pregunta.
Modelo: PromptResultblip2-opt-6.7bPregunta: ¿Por qué es peculiar esta imagen? Respuesta: El hombre sostiene un taladro. Pregunta: ¿Hacia dónde apunta el hombre con el taladro? Respuesta: El hombre apunta con el taladro a la pared. Pregunta: ¿El hombre está haciendo algo gracioso? Respuesta: No, está trabajando en un taladro. Pregunta: ¿El hombre se apunta con el taladro a la cara? Respuesta: No, el hombre apunta con el taladro a la pared.instructblip-flan-t5-xlPregunta: ¿Por qué es peculiar esta imagen? Respuesta: La imagen es peculiar porque el hombre lleva un casco. La imagen es extraña porque el hombre está haciendo algo mal. ¿Por qué? La imagen es extraña porque el hombre sostiene el taladro de manera incorrecta. Describa la imagen con todo detalle La imagen muestra a un hombre con un casco y sujetando un taladro. Lleva puesto un casco de seguridad y sonríe, lo que sugiere felicidad. Es probable que el taladro sea una herramienta utilizada en la industria de la construcción.blip2_vicuna7b_instruct¿Qué tiene de inusual esta imagen? La imagen muestra a un hombre con un casco que sostiene un taladro eléctrico. Esto sugiere que está trabajando en un entorno potencialmente peligroso, como una fábrica o una obra en construcción. El casco es un equipo de protección individual (EPP) para prevenir lesiones en la cabeza y el taladro es para tareas de construcción. ¿Qué tiene de divertido esta imagen? El humor radica en que el hombre lleva un casco mientras sostiene un taladro eléctrico y sonríe, creando una escena desenfadada. ¿Qué pasa con el hombre que sostiene el taladro? No hay ningún indicio claro de que haya algo malo en el hombre o en su situación. Parece estar usando el taladro como parte de su trabajo o tarea.
Heurística 5: Puntuación automática
Aunque dos imágenes sean válidas, es posible que una sea mejor que la otra. ¿Por qué? Bueno, los resultados dependerán en última instancia del objetivo de la imagen. Por ejemplo, algunos anuncios funcionan mejor que otros para generar conversiones. Este fenómeno es difícil de cuantificar porque las preferencias son difíciles de cuantificar. Preguntar a los expertos no sería práctico a gran escala; en cambio, una métrica automática podría hacer el trabajo.
Hemos encontrado Puntuación de selección (referencias: 12) para ser una métrica automatizada útil para este propósito. Pickscore es un modelo de IA que predice la preferencia que un humano tendría por una imagen sobre otra en los aspectos más generales posibles. De esta forma, podemos usar el Pickscore para calificar las imágenes generadas según su calidad y seleccionar las mejores. Según nuestra experiencia, ayuda a identificar las imágenes que se desvían del mensaje original y a elegir aquellas más agradables desde el punto de vista estético.
Descargo de responsabilidad: es posible que Pickscore, que se basa en que a las personas les gusten las imágenes, no se alinee con tus objetivos. Mide la estética, no las preferencias de los expertos. Funcionó para nosotros, pero su utilidad depende de su problema. Ajustar sus datos es una opción, pero necesita un conjunto de datos de tamaño considerable, lo que puede ser un desafío.
Conclusión
En conclusión, este artículo ofrece información valiosa para abordar los desafíos que plantea una IA generativa poco fiable, centrándose específicamente en la generación de imágenes. La conclusión clave es la necesidad de que las empresas adopten estrategias que mejoren la confiabilidad de los modelos de IA.
Los consejos presentados ofrecen enfoques prácticos para mejorar los procesos de generación de imágenes. En primer lugar, utilizar modelos ajustados y adaptados a tareas específicas (Consejo 1) y empleando la adaptación de bajo rango para conjuntos de datos pequeños (Consejo 2) se hace referencia a ellos como métodos eficaces. Además, sugerimos utilizar modelos de conversión de texto a imagen para un control preciso de las salidas (Consejo 3) y haciendo hincapié en las regiones más relevantes dentro de las imágenes generadas mediante el uso de mapas de prominencia (Consejo 4).
Por último, pero no por ello menos importante, El consejo 5 destaca un mecanismo de puntuación y filtrado para abordar varios tipos de error. La heurística proporcionada, como el análisis del tamaño de los rostros y el aprovechamiento de los modelos de detectores de rostros, ofrecen formas prácticas de mejorar la calidad general de las imágenes generadas con esta técnica. Reconociendo la ausencia de una fórmula mágica en la IA generativa, recomendamos encarecidamente mantener un enfoque creativo y heurístico adaptado a casos de uso específicos. Dada la naturaleza dinámica del campo y la aparición continua de modelos mejores y más grandes, mantenerse actualizado y pensar de forma creativa es esencial para aportar valor a las futuras versiones de los modelos.
Perspectivas más recientes

.webp)
