Processament d'imatges

Presentació

Models generatiu de creació d’imatges a partir de descripcions textuals. S’utilitzen normalment per operacions text a imatge. A partir d’un apunt o “prompt” o definició el model genera una imatge que s’aproxima al que estem demanant.

Els models més rellevants son:

Midjourney

Descripció breu: que fa, como interactuar, qui gestiona l’eina

Descripció textual com apunt per ChatGPT. Laboratori de recerca Midjourney inc. a San Francisco-

Model utilitzat

Midjourney (propi)

Enllaç per poder utilitzar-lo

https://www.midjourney.com/

És necessari utilitzar la plataforma Discord per entrar a l’aplicació.

Eina similar d’ús lliure: https://replicate.com/prompthero/openjourney

Costos i llicències

Utilitza un pla de subscripció des de 10€/mes (aprox.).

Exemples d’apunts i resultats o d’utilització en context específic

“una fotografía de Mary Poppins con vestido blanco volando con un paraguas rojo, skyline París, atardecer, iluminacion”

https://www.midjourney.com/showcase/recent/

Guia d’ús per a principiants:

https://enchanting-trader-463.notion.site/Midjourney-v4-v5-Guide-034ff60e252c4c8bbd0127efdd1e4c41

Dall-e

-Descripció breu: que fa, como interactuar, qui gestiona l’eina

Model text a imatge desenvolupat per openAI a partir del processament d’instruccions textuals. Permet genera imatges a partir d’una descripció, editar i crear variacions a partir d’una imatge original. Propietat de OpenAI

-Model utilitzat

DALL-E 3

-Enllaç per poder utilitzar-lo

https://labs.openai.com/

https://www.bing.com/images/create/?ref=hn

Versió 3 disponible al buscador Bing de Microsoft.

-Costos i llicències

Es pot utilitzar sense cost al buscador Bing.

Pla d’utilització per suscripció $0,15 per apunt (aprox.).

-Exemples d’apunts i resultats o d’utilització en context específic

Exemples d’apunts (prompts) per generar imatges amb DALL-E:

https://www.aidemos.info/dalle-3-examples/

Stable Diffusion

Descripció breu: que fa, como interactuar, qui gestiona l’eina

Model publicat al 2022 que també es pot utilitzar per modificar imatges a partir d’una instrucció de text. Desenvolupat per CompVis Group a la Ludwig Maximilian University of Munich, Runway i StabilityAI

Model utilitzat

Stable Difusion.

Enllaç per poder utilitzar-lo

Codi publicat de forma oberta com a resposta als models propietaris DALL-E i Midjourney.

https://github.com/CompVis/stable-diffusion

Es pot utilitzar una demo del model a huggingface:

https://huggingface.co/spaces/stabilityai/stable-diffusion

Costos i llicències

Codi obert.