Jak na obrázky, ilustrace a fotky v chatGPT s DALL-E 3

Pokud jste předplatiteli chatGPT Plus (20 USD měsíčně), tak nově je k dispozici i plugin DALL-E 3. Aktivujete ho v horní liště v chatGPT4 kliknutím na možnost Dall-E 3.

Je to aktuálně nejnovější verze generátoru obrázků z dílny OpenAI, která je zároveň i autorem chatGPT. Používání Dall-E 3 je v chatGPT zahrnuto v předplatném, takže žádné extra poplatky se už za něj neplatí.

Na využití Dall-E 3 se vztahují limity na počet dotazů a stále platí, že nebude generovat jakýkoliv útočný, rasistický nebo explicitní obsah.

K čemu se to hodí?

Využití pro něj tu najde mnoho skupin uživatelů. Obrázkový výstup se hodí jako ilustrace do článků, knih a e-booků, na blog (ten náš nevyjímaje), jako náhledy k příspěvkům na sociální sítě apod.

Kvalita výstupu je, podobně jako u textových výsledků chatGPT, závislá jednak na tom, jak zadání chatGPT a DALL-E pochopí, ale hlavně na promptu (příkazu).

OpenAI tvrdí, že DALL-E 3 je v tomhle zatím z dostupných nástrojů nejdál, protože chápe zadání v celé šíři textu. Tím nám jako uživatelům odpadá nutnost tzv. prompt-engineeringu, což je neustálé opakování téhož příkazu s drobnými úpravami, abychom docílili žádoucí změny.

Dall-E podle OpenAI umí pochopit i velmi podrobné textové zadání rovnou a přetvořit ho v obrázek.

Abychom si ukázali schopnosti Dall-E 3prakticky, zadali jsme mu několik různých typů úloh. U každé přikládáme jak prompt, který jsme zadali, tak první výsledek.

Ilustrujeme česká přísloví

Odzkoušíme různé styly a kombinace toho, jak chatGPT porozumí zadání a jak dobře pak zadaný výstup pochopí dall-e. Každý výstup jde pomocí zpřesňování promtu upravit, ale tím se v tomhle článku už zabývat nebudeme. Jde nám o „výstup na první dobrou“.

První kolo

Prompt: Kouká jako sůva z nudlí – obrázek ve stylu kresleného časopisu Čtyřlístek
Prompt: Kouká jako sůva z nudlí – barevná olejomalba

U prvního obrázku jsme použili specificky český styl dětského časopisu Čtyřlístek, se kterým si Dall E-3 neporadil. Ilustrace je i tak docela povedená.

Druhý obrázek dodržel zadání na první pokus.

Druhé kolo

Prompt: Lepší vrabec v hrsti než holub na střeše – černobílá fotografie ve stylu krajinky
Prompt: Lepší vrabec v hrsti než holub na střeše – dokumentární styl barevné fotografie, rozostřené pozadí, světlé barvy

U prvního černobílého obrázku nedodržel Dall-E zadání s krajinkou.

U druhého výsledku jsme spokojení, výsledek je podle zadání.

Třetí kolo

Promtp: Lež má krátké nohy – černobílý obrázek ve stylu pointilizmu
Prompt: Lež má krátké nohy – barevná malba ve stylu van Gogh

U obou obrázků jsme narazili na to, že chatGPT neporozuměl zadání, resp. neví jak vizualizovat nadsázku z daného přísloví.

První obrázek je v pořádku.

U druhého nedodržel Dall-E požadovaný styl. Namísto specifického stylu van Gogha ilustrace je ve stylu post-impresionizmu.

Rozšíření promptů na detailní, propracované zadání

Podle OpenAI si Dall-E dobře vede s podrobným zadáním, kde i ze složitých promptů pochopí co přesně má na výstupu být a poskládá podle požadavků výsledný záběr.

Několik výstupů přikládáme:

První kolo:

Prompt: 3D ilustrace bytu se 3 místnostmi. V bytě stovky let nikdo nežije, za tu dobu se tam usídlila Matka příroda. Okna jsou rozbitá a přes ně se do bytu rozrostly stomy, dovnitř trvale prší a tak se tam daří květinám, rostlinám, drobnému zvířectvu, mechu apod. V okamžiku, který zachycuješ na obrázku tam svítí ranní paprsky slunce, osvětlují většinu plochy bytu. V levém rohu obrázku je vidět, že u okna se pohybuje v mírném vánku zbytek záclon. Obrázek má styl barevné fotografie, focený z mírného nadhledu, byt vidíme v řezu.

Výstup vypadá skvěle, byť neodpovídá přesně zadání. Z promptu ve výsledném obrázků chybí stromy, nebo aspoň větvě stromů, okno a závěs nejsou v levém rohu, jak jsme požadovali. Oboje by se ale snadno dalo upravit přegenerováním výstupu.

Druhé kolo:

Prompt: Vytvoř sadu blyštivých samolepek, které zobrazují různé druhy a typy jednorožců. V sadě je 12 samolepek, každá je jiného typu. Jedna je černobílá, druhá zlatá, třetí duhová, čtvrtá pastelová, pátá v odstínech modré, šestá zobrazuje bílého Pegase. Zbytek si vymysli. Jednorožce vykresluj v nejmenších detailech, ale bez pozadí. Sadu zkombinuj do jediného obrázku tak, aby v jednom obrázku bylo všech 12 jednorožců

V tomhle výstupu Dall-E také nedodržel zadání. Jednorožců je 15, chybí bílý Pegas několik samolepek je chybně – jednorožec se dvěma rohy, několik steam-punk jednorožců apod.

Třetí kolo:

Prompt: Vytvoř plakát ve stylu 50. let 20. století, který zve diváky na spektakulární show, kde se bude prezentovat co všechno umí DALL-E 3. Datum konání akce je pondělí 16.10.2023 v 17:00. Akce se koná online na adrese www.fapi.cz/blog, na tuto adresu připoj na plakát QR kód. Plakát udělej s prvky future-tech. Vymysli si 2 lákalá hesla pro diváky, aby jsi je nalákal na to, co uvidí a co se dozví. Vstupné je zdarma, počet míst omezený na 350 online diváků. Bez záznamu, tedy kdo nepřijde, nic se nedozví. Všechny informace tam přehledně zahrň.

S tímhle výstupem nejsme spokojení, je v angličtině. Dáváme tedy chatGPT za úkol přegenerovat ho do češtiny.

Třetí kolo znovu v češtině:

Graficky vypadá výstup lépe, než předchozí pokus. Ale bohužel nedodržel spoustu prvků z původního promptu. Chybí čas akce, chybí informace o bezplatném vstupném, omezení počtu účastníků atd.

Ale obrázek bychom použili jako super základ pro vlastní dotvoření ve Photoshop nebo obdobné aplikaci.

Jaké jsou alternativy?

Grafické výstupy jde dnes za peníze i zadarmo tvořit ve spoustě služeb. Z těch populárních třeba:

Každá aplikace umí něco jiného a cílí na jiné uživatele. V některých lze udělat jen jednoduché náhledy a loga, v některých jsou k dispozici palety víceronástrojů, některé mohou i konkurovat zkušeným uživatelům Photoshopu.

Určitě se vyplatí sledovat trendy a udržovat se v aktuálním povědomí toho, kam se generativní AI ubírá. Už nyní, na počátku rozmachu, jsou grafické výstupy dostatečně dobré, aby se s nimi daly ilustrovat knížky nebo online obsah.

Jaká omezení tu vidíme?

Aktuálně tou hlavní překážkou je to, že Dall-E (stejně jako jiné generátory obrázků) neumí dobře pracovat s texty. Když tvoří slova a věty, tak silně halucinují a tvoří neexistující formulace.

Nemůžeme tak po nich chtít vytvořit grafiku s texty, které si mají sami domyslet a vytvořit. Podle našich testů to ale vypadá tak, že jde tohle omezení s trochou trpělivosti obejít:

  • když specificky napíšeme slovo do slova přesně co chceme na obrázku mít, tak to (aspoň v některých případech) Dall-E zvládá do obrázku dát bez chyb.
  • pokud netrváme na češtině, tak angličtina jde Dall-E lépe.

Právní souvislosti – autorská práva k obsahu vygenerovanému pomocí AI. Zde stále ještě platí, že je takhle oblast práva jak v evropském, tak světovém měřítku teprve na počátku. Dle aktuálních právních úprav napříč světem nejde přiznat autorství samotné umělé inteligenci. Autorství nebo spolu-autorství u díla, které vzniklo pomocí AI se posuzuje individuálně podle rozsahu tvůrčího přínosu jednotlivých účastníků.

Samotné vytvoření promptu, byť je sebevíc složitý, se ale zároveň nepovažuje za dostatečně kreativní proces, aby autorství výsledného obrázku připadlo tomu, kdo prompt vymyslel a AI ho zadal.

Stručný výklad k právním souvislostem s AI najdete třeba zde (Petra K. Dolejšová).

Postoj samotného OpenAI nyní je takový, že jakýkoliv obrázek pomocí Dall-E vytvoříte, je vám k dispozici pro volné použití a není vyžadováno žádné další povolení k reprodukci, prodeji nebo zpeněžování.

5/5 - (1 vote)
Komentáře

Přidat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Vaše osobní údaje budou použity pouze pro účely zpracování tohoto komentáře. Zásady zpracování osobních údajů