¿El fin de la creatividad humana?

TECNOLOGÍA | QUANTUM BABYLON

Una nueva generación de IA son capaces de realizar imágenes fotorrealistas inimaginables con solo darles un texto descriptivo

Cyber criminal profiling: perfilando al delincuente en la era del metaverso

¿El fin de la creatividad humana?

Una gran polémica se desató hace unas semanas cuando el artista digital Jason Allen con su obra Theatre D'Opera Spatial ganó el primer puesto de Feria Estatal de Colorado (EEUU) en la categoría de Artes Digitales y Fotografía con Edición Digital. La controversia se desató cuando el jurado descubrió que la ilustración había sido creada usando Midjourney, una de las inteligencias artificiales que está causando una mezcla de estupefacción y temor tanto en la comunidad de artistas como en la sociedad en general.

Hasta hace poco, la creatividad parecía ser una cualidad única del humano. Sin embargo, estás inteligencias artificiales o IA nos han roto los esquemas, al ser capaces de crear en cuestión de segundos, imágenes tanto realistas como artísticas con solo introducir un texto con la descripción del resultado que queremos obtener. Las imágenes logradas son a veces tan sorprendentes que son capaces de engañar a cualquier ojo humano.

Estás IA entrenadas con bancos de datos masivos o dataset provenientes de internet, han aprendido la relación entre las imágenes y las palabras usadas para describirlas. La primera en dejar al mundo con la boca abierta y acaparar todas las miradas fue Dall-e 2, sucesora de Dall-e con la que ya se obtenían resultados bastante decentes. Si bien está lejos de su segunda versión que en un solo año ha alcanzado un asombroso nivel tanto en la calidad visual como de comprensión en el lenguaje, aunque en ese sentido está IA cojea un poco.

Dall-E, cuyo nombre es un guiño en honor al célebre pintor surrealista y al pequeño robot de Pixar Wall-e, fue creada por la compañía sin ánimo de lucro Open AI, cofundada en 2015 por Elon Musk, quien más tarde saldría de su dirección. Esta empresa que ha recibido una importante financiación por parte de Microsoft, también ha desarrollado inteligencias como GPT-3 un modelo de lenguaje natural que puede escribir artículos periodísticos o informes jurídicos, o Codex una herramienta que traduce del inglés a lenguaje de programación y está diseñada para facilitar la vida a los programadores profesionales sin que tengan que picar código básico.

Quantum Babylon

Quantum Babylon es una entidad social de desarrollo y asesoramiento tecnológico y a través de este espacio pretendemos explicar de forma amena sobre los retos tecnológicos presentes y futuros a los que nos enfrentamos. Podéis conocer más de nosotros entrando a nuestra web www.quantumbabylon.org

Dall-e 2 se entrena con CLIP (Contrastive Language-Image Pre-training) que aprende la relación entre un determinado texto y una imagen. Luego construye la obra mediante un proceso llamado "difusión” que comienza con un patrón de puntos aleatorios que se modifica gradualmente a medida que reconoce detalles específicos de la imagen. Este nuevo modelo consigue crear obras de 1024x1024 pixeles que van desde el realismo fotográfico a la mayoría de movimientos pictóricos.

También puede "inspirarse" en una imagen para crear variaciones conservando el mismo estilo e incluye herramientas como el inpainting para la integración de elementos nuevos en zonas específicas de la imagen o el outpainting para agrandar el lienzo de una imagen añadiendo contenido alrededor, lo que supone toda una revolución. Aunque esta IA solo está abierta para unos pocos desarrolladores afortunados bajo un modelo de pago, donde cada generación de imagen cuesta alrededor de 0,13 dólares. Un precio que parece razonable teniendo en cuenta que Open AI nos cede todos los derechos comerciales de las imágenes.

A la revolución de las IA de generación de imagen no tardó en sumarse el gigante tecnológico de Google con dos propuestas, IMAGEN y Parti (Pathways Autoregressive Text-to-Image). Este último utiliza un modelo de generación de texto a imagen autorregresivo en vez del de difusión, consiguiendo crear imágenes fotorrealistas de alta fidelidad y permitiendo la utilización de descripciones más detalladas y ricas por parte del usuario en comparación con su competidor Dall-e 2. Ambos modelos continúan en cerrado aunque en su página web podemos encontrar varios ejemplos.

La que sí está en abierto y disponible para los usuarios aunque es de pago es Midjourney. Detrás de esta inteligencia artificial hay una docena de investigadores, permite crear imágenes 1.792 x 1.024 píxeles y apuesta por un estilo generativo de imágenes más artístico que fotorealista. Quizás el motivo de esto provenga del tipo de dataset con la que haya sido entrenada esta inteligencia artificial. Una vez generada la imagen, Midjourney implementa herramientas interesantes que permiten crear variaciones y ampliaciones de las imágenes.

La última en incorporarse a la carrera ha sido Stable Diffusion con un prometedor proyecto opensource, desarrollado por la empresa Stability AI en colaboración con investigadores de la Universidad de Heidelberg (Alemania). Está IA que utiliza un modelo de difusión, es capaz de generar imágenes fotorrealistas a partir de cualquier texto con un detalle impresionante que nada tiene que envidiar a sus predecesoras. La versión estable está disponible a través de DreamStudio, un front-end y una API de pago pero la compañía ha liberado una demostración gratuita.

Es imposible no pensar en las implicaciones y repercusiones que tendrá está tecnología

Muchas de estas IAs aún no terminan de lanzar sus versiones definitivas ante el miedo a usos inadecuados e indebidos por parte de los usuarios, como la creación de fake news o ante la posible vulneración de los derechos de autor. Y es que como ya apuntábamos al principio del artículo este avance tecnológico tiene tantos amantes como detractores en su contra. Además estos dataset se nutren de imágenes y fotografías creadas por otros artistas, lo que quizás desemboque en un nuevo planteamiento de las leyes de copyright.

Es imposible no pensar en las implicaciones y repercusiones que tendrá está tecnología a futuro y el debate ético y moral está servido. El enorme número de obras de arte producidas por la inteligencia artificial (IA) preocupa cada vez más a los artistas y aficionados. Plataformas como Newgrounds, Inkblot Art o Fur Affinity ya se han posicionado y no permitirán en sus portales aquellas imágenes creadas mediante herramientas que utilicen estas tecnologías.

Sin embargo, otros lo ven como una herramienta más para agilizar sus procesos creativos o complementar sus ideas, como es el caso del famoso guionista ganador de un Emmy, Steve Coulson que ha creado un cómic digital de estilo folk-terror e inspirado en el trabajo de Moebius, cuyas ilustraciones están hechas con Midjourney. El comic titulado The Terrible Misfortunes of an Intergalactic Traveler (Las terribles desventuras de un viajero intergaláctico) consta de 40 páginas y puede descargarse de manera gratuita.