La IA generativa no acabará con las nuevas ideas: ayudará a crearlas

La tecnología condiciona la creatividad. Sí: también en el arte. Esto no es nuevo.

dic 23, 2022

No hay vuelta atrás: las aplicaciones con interfaces humanas basadas en IA generativa ya son una herramienta cotidiana para mí. En los últimos días he seguido mi propia experimentación hasta el punto de que para cada nueva tarea que tenía que emprender me preguntaba: ¿será que con esto me puede ayudar? Y procedía a probar. Elicit, Sonix y, por supuesto, ChatGPT son las que por ahora tengo en mi flujo de trabajo. Con ellas he tenido una sensación de cambio cualitativo que no tenía desde que empecé a usar Google. ChatGPT tiene un problema de precisión, cierto (¡ayer se inventó un economista especializado en mercado laboral que nunca existió!). Pero eso lo he resuelto muy bien con Elicit, que es una aplicación dedicada a ser precisa en las respuestas que te da (revisiones de la evidencia disponible para preguntas de investigación determinadas). Y, por ahora, lo maravilloso de todas ellas, especialmente de GPT, es lo excepcionalmente buena que es articulando ideas propias o ajenas, pero poco estructuradas.

Le he proporcionado:

→ Las notas semiordenadas de una reunión

→ La transcripción literal de una entrevista

→ Una serie de artículos de unas 1000 palabras en idiomas diferentes y con ángulos distintos sobre un tema concreto

→ Mis propias notas gramaticalmente incompletas, mezclando inglés y español

Con todo ello le he pedido que me produzca distintos productos escritos, de diferente longitud, para consumo interno. Luego con lo que me venía le daba un par de directrices adicionales: añade esto, mejor enfatiza esto otro, etcétera. El resultado ha sido entre notable y extraordinario. Después no tenía más que revisarlo, hacerlo mío.

En mi experiencia, GPT-3 demuestra un criterio muy bueno a la hora de dar coherencia a ideas que no le son propias. Uno bastante peor para determinar relevancia y síntesis; o, más que peor, diferente del propio: se le escapa el matiz de lo que yo veo como más destacable de una serie de textos. Pero al cabo de unas pocas iteraciones el resultado se va acercando a lo que uno pretende, mientras que uno también descubre ángulos o áreas nuevas sobre el mismo asunto o idea.

Y mientras hacía esto me acordaba de los hot takes sobre el fin de la creatividad: al fin y al cabo, GPT-3 puede hacer lo que hace porque se basa en todo el conocimiento creado por humanos durante años, décadas, siglos. DALL·E 2, Stable Diffusion, Midjourney son capaces de generar imágenes nuevas (como las que abren esta pieza) porque hay un corpus estético previo. Si no hay humanos creando, ¿entonces será el fin de las nuevas ideas, de los nuevos formatos?

La tecnología condiciona la creatividad

Creo que esa perspectiva captura mal el proceso creativo: lo presenta como una heroicidad humana. Un individuo dándole forma a la nada desde la nada.

La realidad es mucho más prosaica: un montón de individuos semi-coordinados construyendo a partir de lo que ya existe y empleando las herramientas que reducen más el coste de llegar al objetivo deseado.

Lo primero es medio obvio, casi un cliché: nada se crea de la nada, todos nos basamos en lo que ya existe, a hombros de gigantes, etcétera. Que un modelo se alimente de referencias explícitas no es tan diferente de un ilustrador inspirándose en sus predecesores.

Lo segundo es algo que solemos pasar por alto más a menudo: toda creación de nueva información está fuertemente condicionada por la tecnología empleada para ello. Y hablo aquí de información en el sentido más amplio posible: desde una novela hasta una canción, desde una noticia hasta una obra maestra de la arquitectura. Ahora tenemos una herramienta nueva. Esto abrirá nuevos caminos, pero hará menos probables otros. Exactamente igual que cuando empezamos a disponer de aparatos de reproducción musical en nuestros hogares a un precio razonable las grandes orquestas y setups musicales tipo ópera para las salas de concierto de los siglos anteriores al XX dejaron de tener tanto sentido, como cuenta David Byrne en su estupendo ‘Cómo funciona la música’.

El contrapunto habitual a esta postura es “sí, pero en este caso el resultado es distinto, claramente hay circularidad/copia de lo existente”. A esto mi respuesta es: esta es una tecnología nueva, estamos en su primera iteración. El punto de comparación es el de un creador que se inicia sin apenas experiencia. Es normal que los primeros resultados sean algo torpes, más bien cercanos a lo que ya existe. Y aún así…

Mejor voy con un ejemplo gráfico. Seguí este fabuloso tutorial para entrenar a mi propio modelo derivado de Stable Diffusion con fotografías mías y después pedirle nuevas imágenes. Generé cuatro modelos (alrededor de 4h, 1h por modelo) y solo el último me dejó relativamente contento. La primera imagen que me creó fue esta.

Bastante impresionante, aunque tiene algunos problemas en los ojos y en los labios, y la oreja queda extrañamente desenfocada, pero esto también podría haberlo hecho un efecto enfoque imperfecto del iPhone. De hecho, me hizo gracia que el blanco y negro usado sea esencialmente uno que recuerda al del iPhone. Las fotos están adquiriendo hoy una estética determinada que está condicionada por las herramientas que usamos para tomarlas (iPhone, Pixel, etc) y el espacio de difusión preferente (Instagram). La tecnología condiciona la creatividad.

Hice varios experimentos, cogí inspiración de esta galería de prompts… los resultados se fueron afinando. Le pedí algo estilo Studio Ghibli, el famoso estudio de animación fundado por Hayao Miyazaki. El primer resultado fue algo que imagino varios considerarán como cercano a plagio de estilo.

(Además de que no se parece demasiado a mí).

Pero afinando la petición, añadiendo matiz y mezclando la referencia a Ghibli con otras, el resultado fue alejándose del plagio y acercándose a algo más original (y fiel).

Mi punto es que hubo una iteración añadida a las horas de entrenamiento del modelo hasta lograr algo relativamente más satisfactorio y distintivo. Exactamente igual que me pasó en mi trabajo con ChatGPT. En ambos casos hubo una alimentación de información externa desde la cual los modelos produjeron resultados determinados… propios.

Lo dejo aquí por ahora. En la siguiente entrega hablaré plagio, zonas grises, falta de reconocimiento de méritos pasados y, en definitiva, de quién sale perdiendo con todo esto y por qué. Quizás no es exactamente quien esperas.

Mientras tanto, Feliz Finde Navideño acompañado de un ejemplo de cómo la tecnología (¡grabar en una oficina!) posibilitó un nuevo formato musical que rompió con todo lo que existía antes, reemplazando de facto a los MTV Unplugged de las décadas inmediatamente anteriores.

Rango abierto

Discusión sobre este post