Com as instruções (prompts) corretas, é possível transformar um aplicativo de IA em uma câmera fotográfica? Tentamos responder essa pergunta utilizando o aplicativo Stable Diffusion Online[SITE] como nosso "aparato fotográfico".
Produzimos dezenas de imagens inspiradas no quadro Les Pommes (as maçãs) que Paul Cézanne pintou em 1890. Mas uma curadoria a olhos aguçados nos permitiu selecionar as 8 que compõem o portfólio de resultados experimentais detalhados desta página.
🤖 ChatGPT 3.5: "A aplicação da IA na criação de arte é um campo relativamente novo, que tem despertado o interesse de artistas e pesquisadores. Uma IA pode ser treinada para gerar imagens realistas a partir de descrições textuais, o que abre um mundo de possibilidades para a criação de arte e design. Essa técnica é conhecida como GAN (Generative Adversarial Network) e tem sido utilizada para criar imagens de rostos, paisagens e até mesmo obras de arte."
Clique nas imagens abaixo
para visualizar a legenda, os prompts utilizados e nossas reflexões sobre o impacto dessa ferramenta e de similares na fotografia e na ciência.
[FOTO] MARTORELL, J. QUADRO LES POMMES DE PAUL CEZANNE ORIGINAL. 2013. 1 FOTOGRAFIA. 600 X 349 PIXELS.
[FOTO] SOUZA, S. M. TRANSFORMANDO PALAVRAS EM IMAGENS. 2023. 1 FOTOGRAFIA. 2560 X 2560 PIXELS.
[FOTO] SOUZA, S. M. ARTE COM IA: PEQUENAS MUDANÇAS GRANDES DIFERENÇAS. 2023. 1 FOTOGRAFIA. 2560 X 2560 PIXELS.
[FOTO] SOUZA, S. M. QUANDO A IA ERRA O NÚMERO DE MAÇÃS. 2023. 1 FOTOGRAFIA. 2560 X 2560 PIXELS.
[FOTO] CAETANO, L. G. REVOLUÇÃO VISUAL COM MAÇÃS, IA E POUCAS PALAVRAS. 2023. 1 FOTOGRAFIA. 2560 X 2560 PIXELS.
[FOTO] CAETANO, L. G. EXPECTATIVAS QUASE SEMPRE ATENDIDAS. 2023. 1 FOTOGRAFIA. 2560 X 2560 PIXELS.
[FOTO] DOS SANTOS, G. F. Por que a IA fotografa maçãs amassadas?. 2023. 1 FOTOGRAFIA. 2560 X 2560 PIXELS.
[FOTO] DOS SANTOS, G. F. IAs não são perfeitas e isso é uma coisa boa. 2023. 1 FOTOGRAFIA. 2560 X 2560 PIXELS.
[FOTO] CAETANO, L. G. FOCO IA-GÉTICO. 2023. 1 FOTOGRAFIA. 2560 X 2560 PIXELS.
Uma pintura marcante, em que o pintor optou por manter pinceladas fortes e não misturar tanto os tons. Temos tons complementares e calmos, em que as cores foram escolhidas para complementar o fundo do quadro, fundo esse que tem como sua cor predominante o azul, mas, em meio a pintura, ainda podemos ver as misturas de branco amarelo e azul na criação de um fundo azul acinzentado. O objeto central da pintura são frutas, postas em um prato raso e branco. Três lindas maçãs, daquelas não tão regulares ou totalmente vermelhas. As maçãs se encontram empilhadas no prato que está sobre uma mesa que faz contraste direto com o fundo em um tom de azul escuro, mas a mesa parece feita de madeira.
Decidimos testar como as IAs recriam imagens que já existem. A imaginação humana dificilmente consegue reproduzir uma imagem a partir de uma descrição apenas com palavras, então será que as Inteligências Artificiais com seus imensos bancos de dados conseguem chegar mais perto de imagens já existentes com base apenas em descrições verbais? Essa relação entre palavra transformada em imagem por meio da tecnologia é um dos desafios mais interessantes do mundo moderno!
Prompt | Tradução |
---|---|
Beautiful Impressionism Painting of a dark green table with a white plate on top, on the plate there are four red apples with background light green unfocused. |
Linda pintura impressionista de uma mesa verde escura com um prato branco em cima, no prato há quatro maçãs vermelhas com fundo verde claro sem foco. |
O uso do comando impressionism painting permitiu que a imagem se aproximasse de uma pintura. A IA entendeu o prato e o estilo de pintura, porém se distanciou das cores originais, do número de maçãs, e não colocou a mesa em que o prato está apoiado.
Percebe-se que pequenas alterações no texto base geraram diferenças na imagem recriada e com o mesmo comando a IA gerou diferentes partes da pintura, mesmo sem terem sido especificadas. Cada pessoa fez uma descrição diferente, que resultou em imagens ou muito semelhantes ou muito distantes da original. Aqui, usamos o aplicativo Stable Diffusion Online[SITE] para gerar as imagens.
Prompt | Tradução |
---|---|
Beautiful Impressionism Painting of a dark green table with a white plate on top, on the plate there are three red and yellow apples with background light green unfocused. |
Linda pintura impressionista de uma mesa verde escura com um prato branco em cima, no prato há três maçãs vermelhas e amarelas com fundo verde claro sem foco. |
Aqui foi adicionado a instrução yellow para a cor das maçãs, e a quantidade de maçãs foi para três. A imagem gerou corretamente o prato e a mesa, porém a mesa está em cor diferente, assim como o fundo e as maçãs.
[SITE] ROMBACH, R.; ESSER, P. Stable Diffusion Online. Disponível em: Stable Diffusion Online. Acessado em: 30 jun. 2023.
Cada imagem elaborada precisa da prompt: um parágrafo em inglês que descreve completamente a cena. Com isso e um clique em Generate surgem um número pré-definido de 4 imagens. Portanto, não espere que a IA adivinhe o que você quer: sem uma boa descrição a mágica não acontece!
Prompt | Tradução |
---|---|
Beautiful Impressionism Painting of a dark green table with a white plate on top, on the plate there are four red apples with background light green unfocused. |
Linda pintura impressionista de uma mesa verde escura com um prato branco em cima, no prato há quatro maçãs vermelhas com fundo verde claro sem foco. |
Essa imagem usando é a que menos se aproxima do comando utilizado em relação à quantidade de maçãs. Porém, a IA entendeu a mesa, o prato, e conseguiu distribuir melhor as cores.
Na era da fotografia pré Inteligência Artificial, belas fotografias originavam de clicks planejados e ajustes espontâneos: reposicionar o assunto ou substituir a lente para melhorar enquadramento, trocar a disposição dos objetos nos planos da cena para controlar a perspectiva, mudar a iluminação para definir o tom e outros tantos quantos o cartão de memória permitia o fotógrafo realizar.
Prompt | Tradução |
---|---|
Photograph of a front view of a dark wooden table where there is a pile of ripe apples placed on a white porcelain plate alongside another pile of less ripe apples , hd 4k 8k, natural light |
Fotografia de uma vista frontal de uma mesa de madeira escura na qual há uma pilha de maçãs maduras colocadas em um prato de porcelana branca ao lado de outra pilha de maçãs menos maduras , hd 4k 8k, luz natural |
Aqui o uso do termo fotografia aliado à descrição da qualidade da imagem gerou uma imagem em um estilo completamente diferente. Vemos que a IA entende a diferença entre fotografia e pintura, apesar de ainda ter problemas com a quantidade e a aparência das maçãs.
Agora, com as IAs, parece que as boas imagens vêm ao acaso após um prompt e uma dezena de Generates. Talvez isso se deva á inerente imprevisibilidade das IAs, uma de suas maiores características, que muitas vezes confundimos com "criatividade". Mas, se você não gosta de ser surpreendido(a), basta observar atentamente os detalhes das imagens geradas para identificar padrões. Ou seja, os resultados são controláveis!
Prompt | Tradução |
---|---|
Photograph in first person perspective of a dark wooden table where there are a pile of green apples in the right and a plate of red apples in the left with background white wall , hd 4k 8k, natural light |
Fotografia em perspectiva de primeira pessoa de uma mesa de madeira escura na qual há uma pilha de maçãs verdes à direita e um prato com uma pilha de maçãs vermelhas à esquerda com fundo de parede branca , hd 4k 8k, luz natural |
A especificação de uma perspectiva favoreceu a disposição dos objetos na cena, porém, claramente a IA se atrapalhou com as cores.
Apesar de todo o potencial das IAs na geração de imagens, elas também têm suas limitações. Como as IAs dependem de grandes quantidades de dados para treinar seus modelos e aprender a gerar imagens coerentes e realistas, temos que considerar que nem sempre os dados, nesse caso imagens, disponíveis são de boa qualidade, diversidade ou representatividade. Esse banco de referências enviesado pode fazer as IAs reproduzirem vieses e preconceitos presentes nos dados, gerando imagens que não estão de acordo com o que pedimos e, no pior dos casos, podem até ser ofensivas ou discriminatórias.
Prompt | Tradução |
---|---|
On a wooden table we have a flat white plate with 3 irregular apples inside the plate, which have shades of red and yellow |
Em uma mesa de madeira nós temos um prato branco plano com 3 maçãs irregulares dentro do prato, as quais possuem tons de vermelho e amarelo |
Usamos uma variação nas frases para testar a direção que a IA tomaria, ela entendeu o comando e gerou uma imagem relativamente coerente com o que foi pedido, porém em uma perspectiva completamente diferente da esperada.
Assim como qualquer tecnologia, a IA também está cheia de vieses inerentes em sua programação e, por isso, não adianta sermos tão rígidos quanto nossas demandas e estarmos abertos aos resultados variados que ela oferece. É possível insistir até obter uma imagem que atenda aos nossos critérios, mas talvez o mais interessante seja os resultados que expandem nossa ideia inicial. Uma descrição sucinta, não muito restritiva, é tudo que uma IA precisa para produzir imagens interessantes.
Prompt | Tradução |
---|---|
A painting of a wooden table with 1 white flat plate that contains three apples |
Uma pintura de uma mesa de madeira com 1 prato liso branco que contém três maçãs |
Indo pelo lado mais sucinto dos comandos, aqui a IA entendeu o contexto, porém gerou uma imagem diferente do que foi pedido. Apesar disso, o estilo da pintura se assemelha ao de Cézanne.
O aplicativo Stable Diffusion Prompt Generator[SITE], nos ajuda fornecendo palavras-chaves para orientar a criação da imagem que queremos. Por exemplo, se você quiser uma imagem de alta resolução, ele adiciona os termos hd, 4k ou 8k no prompt. Esses termos podem não ter muito sentido para nós humanos, mas para a IA eles são como pistas que indicam o tipo de imagem desejada. É como se a IA estivesse tentando lembrar de uma palavra que está na ponta da língua, e usasse essas palavras-chaves como referências relacionadas. Mas isso não significa que a imagem gerada vai ser exatamente como você imaginou, pois, como podemos ver aqui, a IA também usa outras fontes de inspiração.
Essa ferramenta é criada com base em padrões estudados no processo de geração de imagens com IAs e se assemelha as felicidades que as câmeras digitais trouxeram para a fotografia! Antes, era preciso ter conhecimento técnico para operar uma câmera analógica, pois quase tudo dependia de escolhas de quem operava a câmera: a abertura da lente, o filme com sensibilidade correta etc. Com as câmeras digitais, várias funções se tornaram automáticas, como o foco e o ajuste de sensibilidade digital. Esses foram os primeiros passos para tornarem a câmera fotográfica um acessório do dia a dia. Ainda não sabemos quais outras facilidades vão surgir na geração de imagens com IAs, mas certamente elas vão nos surpreender.
Prompt | Tradução |
---|---|
Photograph of a side view of a dark wooden table where there are a pile of green apples alongside a plate with a pile of red apples and background brown and olive green , hd 4k 8k, natural light |
Fotografia de uma vista lateral de uma mesa de madeira escura na qual há uma pilha de maçãs verdes ao lado de um prato com uma pilha de maçãs vermelhas e fundo marrom e verde oliva , hd 4k 8k, luz natural |
Aqui também vemos que a IA não entendeu a maior parte das descrições que foram dadas, dando um resultado bem genérico. Assim, gerou uma das imagens mais diferentes do que foi pedido até então.
[SITE] AGRAWAL, N. Stable Diffusion Prompt Generator. Disponível em: Stable Diffusion Prompt Generator. Acesso em: 20 dez. 2023.
Deslize para escolher outra história