Stejně jako GPT‑3 je DALL-E modelem transformačního jazyka od Open AI. Přijímá text i obrázek jako jediný proud dat obsahující až 1280 tokenů a je trénován s maximální pravděpodobností vygenerování všech tokenů jeden po druhém.
DALL-E umí nejen vytvářet nové obrázky, ale také „domalovat“ část existujícího obrázku tak, aby to vypadalo přirozeně a odpovídalo tomu, co chcete pomocí textu vytvořit. Je to podobné, jako kdybyste z fotografie vystřihli pravý dolní roh a nechali AI, aby ho doplnila podle vašich instrukcí. DALL-E 2 i 3 si můžete otestovat v naší aplikaci OCTODEEP.

Model DALL-E má dovednost vytvářet obrázky na základě textových popisů. Je schopen pracovat s jazykem a jeho strukturou, což znamená, že dokáže pochopit složité věty a vytvořit obrázky, které odpovídají jejich významu. Obrázky, které jsou prezentovány jako ukázky, jsou vybírány automaticky – systém CLIP hodnotí kvalitu obrázků a vybere ty nejlepší. Ruční zásahy do výběru jsou minimální, což ukazuje na objektivitu a schopnost modelu generovat kvalitní výsledky bez nutnosti manuální úpravy.
DALL-E je model umělé inteligence, který funguje na principu tzv. transformátoru, což je typ neuronové sítě používaný pro zpracování sekvencí dat, jako je text nebo obraz. Tento konkrétní model kombinuje text a obraz do jednoho proudu dat, který obsahuje celkem 1280 částí (tzv. tokenů) – 256 tokenů je vyhrazeno pro text a 1024 pro obraz. Model zpracovává tyto tokeny postupně (autoregresně), což znamená, že každý krok závisí na předchozích.
DALL-E využívá různé typy „maskování pozornosti“ (attention masking), což je technika, která určuje, jaké části dat si model při učení všímá. Například obrazové tokeny mohou „věnovat pozornost“ textovým tokenům, aby lépe pochopily, jak text souvisí s obrazem. Pro textové tokeny se používá standardní kauzální maska, která zajišťuje, že model zpracovává text ve správném pořadí.
Syntéza textu na obraz
Tvorba obrazů na základě textového popisu je oblastí výzkumu, která se rychle rozvíjí. První průlom v této oblasti přinesla práce Reeda a jeho kolegů, kteří použili GAN (Generative Adversarial Network – generativní protivní síť) podmíněný textovým popisem. GAN je typ AI modelu, který se skládá ze dvou částí – generátoru (vytváří obsah) a diskriminátoru (hodnotí kvalitu vytvořeného obsahu). Textové popisy byly převedeny na číselné reprezentace (tzv. vektory) pomocí speciálního kodéru, který byl natrénován na rozpoznávání rozdílů mezi texty.
Další pokroky přinesly modely jako StackGAN a StackGAN++, které pracují s více úrovněmi rozlišení obrazu, aby zlepšily jeho kvalitu. Model AttnGAN přidal mechanismus pozornosti (attention), který umožňuje modelu lépe propojit textové a obrazové prvky. Tento přístup zahrnuje i techniku kontrastní ztráty, která pomáhá modelu lépe pochopit rozdíly a podobnosti mezi různými objekty, třeba mezi obličeji.
Klíčové vlastnosti DALL-E
- Generování obrázků z textových popisů
DALL-E dokáže převést textové zadání na vizuální obsah. Uživatel může zadat jednoduchý nebo složitý popis, například „dvouhlavý papoušek“ nebo „skleněný tygr na modré louce“, a nástroj vytvoří odpovídající obrázek. - Porozumění složitým promptům
DALL-E 3 exceluje v pochopení a provedení i velmi detailních a složitých textových zadání. To zajišťuje, že generované obrázky přesně odpovídají požadavkům uživatele. - Vysoká kvalita a estetika obrázků
Obrázky generované DALL-E jsou vizuálně atraktivní, detailní a umělecky působivé. Nástroj je navržen tak, aby překonal předchozí verze i konkurenci v oblasti kvality a koherence. - Kreativní kontrola a flexibilita
Uživatelé mohou obrázky snadno doladit, upravit nebo rozšířit. DALL-E umožňuje nahrát vlastní obrázky a provádět na nich úpravy, například přidávat nové prvky nebo měnit části obrázku. - Variace a kombinace konceptů
Nástroj dokáže kombinovat různé koncepty do jednoho obrázku a generovat více variant na základě jednoho zadání. To umožňuje uživatelům prozkoumat různé vizuální interpretace jejich nápadů. - Inpainting a rozšiřování obrázků
DALL-E umožňuje upravovat existující obrázky, například odstraňovat nežádoucí objekty nebo rozšiřovat obrázky za jejich původní hranice. Tato funkce je užitečná pro vytváření nových kompozic nebo úpravu detailů. - Podpora různých stylů a imitace
Nástroj dokáže napodobovat různé umělecké styly, od klasických po moderní, což umožňuje uživatelům přizpůsobit výstup jejich estetickým požadavkům. - Bezpečnost a etické využití
DALL-E obsahuje mechanismy filtrování obsahu, které zabraňují generování nevhodných nebo škodlivých obrázků. Nástroj také odmítá vytvářet obsah spojený s násilím, sexuálním obsahem nebo negativním zobrazením veřejných osob.
Tyto vlastnosti dělají z DALL-E výkonný nástroj pro umělce, designéry, marketingové profesionály i běžné uživatele, kteří chtějí rychle a efektivně vizualizovat své nápady.
Co všechno DALL-E dokáže?
- Ovládání atributů:
- Testování schopnosti DALL·E modifikovat atributy objektů a jejich počet.
- Příklady: pětiúhelníkové zelené hodiny, kostka s texturou dikobraza, sbírka sklenic na stole.
- Kreslení více objektů:
- Schopnost ovládat více objektů, jejich atributy a prostorové vztahy.
- Příklady: ježek v barevném oblečení, hromádka tří kostek různých barev, emotikon tučňáka v oblečení.
- Vizualizace perspektivy a trojrozměrnosti:
- Zvládne různé druhy pohledu a 3D styl scény.
- Příklady: detailní pohled na kapybaru, voxelová kapybara, odraz bílé kostky v zrcadle.
- Vizualizace vnitřní a vnější struktury:
- Schopnost vykreslit vnitřní strukturu (řezy) a makro detaily.
- Příklady: pohled v řezu na ořech, makrofotografie mozkových korálů.
- Odvozování kontextových detailů:
- Schopnost doplnit detaily, které nejsou explicitně zmíněny.
- Příklady: obraz kapybary při východu slunce, vitráž s modrou jahodou, průčelí obchodu s nápisem „openai“.
- Aplikace předchozích schopností:
- Využití schopností pro módní a interiérový design.
- Příklady: manekýn v oranžové košili, obývací pokoj s obrazem Kolosea, podkrovní ložnice s akváriem.
- Kombinace nesouvisejících pojmů:
- Syntéza objektů z různých konceptů.
- Příklady: hlemýžď z harfy, křeslo ve tvaru avokáda.
- Ilustrace zvířat:
- Generování uměleckých ilustrací zvířat a chimér.
- Příklady: baby ředkvička venčící psa, chiméra žirafy a želvy, emotikon zamilovaného šálku boba.
- Vizuální uvažování s nulovým záběrem:
- Překlad textu na obrázek bez dalšího školení.
- Příklady: skica kočky, čajová konvice s nápisem „gpt“.
- Zeměpisné znalosti:
- Schopnost generovat obrázky geografických míst a orientačních bodů.
- Příklady: čínské jídlo, náměstí Alamo v noci, most Golden Gate.
- Časové znalosti:
- Generování obrázků objektů z různých časových období.
- Příklad: fotografie telefonu z 20. let.
- Shrnutí přístupu a předchozí práce:
- DALL·E je transformátor, který kombinuje text a obraz do jednoho proudu tokenů.
- Inspirace z předchozích výzkumů, jako jsou GANy a CLIP, pro zlepšení kvality obrazu.
Model DALL-E 2
Dall-e 2 novější a realističtější model, který generuje obrázky až se čtyřikrát vyšším rozlišením. Zákazníci ho preferují před Dall-e 1 ze 71,7 % kvůli shodě titulků a z 88,8 % kvůli jeho realističtějším fotkám. Je to kvůli tomu, že používá GLIDE (Guided Language-to-Image Diffusion for Generation and Editing), což je systém využívaný pro generování a úpravu obrázků na základě textových popisů. Jde o difuzní model, který postupně transformuje šum na obrázek, přičemž je veden textovým vstupem, aby výsledný obrázek odpovídal zadanému popisu. GLIDE kombinuje schopnosti generování realistických obrázků s možností jemného ovlivňování výsledku pomocí textových pokynů. Díky tomu lze nejen vytvářet nové obrázky, ale také upravovat existující, například přidávat nebo odstraňovat objekty. Tento přístup umožňuje vysokou kvalitu a přesnost při generování vizuálního obsahu.
Model DALL-E 3
DALL·E 3 je nativně postaven na ChatGPT, což vám umožňuje používat ChatGPT jako parťáka pro brainstorming a zpřesnění vašich výzev. Zeptejte se ChatGPT na obrázek čehokoli, od jednoduché věty po podrobný odstavec.
Když napíšete prompt, ChatGPT automaticky vygeneruje přizpůsobené, podrobné výzvy pro DALL-E 3, které váš nápad oživí. Pokud se vám líbí konkrétní obrázek, ale není úplně v pořádku, můžete požádat ChatGPT, aby provedl úpravy pomocí několika slov. Ten se vás dokonce zeptá, jestli chcete na obrázku něco změnit, takže vám sám radí, co by se dalo vylepšit.
Stejně jako u DALL-E 2, obrázky, které vytvoříte pomocí DALL-E 3, jsou vaše k použití a nepotřebujete naše povolení k jejich opětovnému vytištění, prodeji nebo prodeji.
Ukázky práce od DALL-E
Prompt: Vytvoř mi reklamu na matcha latté, v co nejvíce realistickém stylu.

Prompt: Vytvoř mi reklamu na tenisky, které budou mít v logu křížek. Chci to jednoduché, minimalistické, realistické, pro mladé lidi. Tenisky mohou být i na něčí noze, ale nechci tam celého člověka, ideálně spíš detail na boty.

Prompt: Vytvoř mi reklamu na lískové oříšky. Chci, aby to byla produktová fotka na e-shop, co nejvíce realistická.

Prompt: Zkus vytvořit trenéra, v pozadí bude fitness, v ruce bude držet shaker. Bude se příjemně usmívat. Fitness bude jednoduché, moderní.

Důležité je mít na paměti, že výsledky s generativní AI nebudou dokonalé hned napoprvé. Obvykle je potřeba dál zkoušet a upravovat prompty, než se člověk naučí, co je potřeba, aby model věděl. Velmi často se například stává, že pokud nenapíšeme, že chceme realistický obrázek, model nám může vygenerovat něco ve stylu manga apod. Nejlepší je už ze začátku mít jasnou představu, nebo se inspirovat už použitými prompty na internetu.
Aktualizováno dne 9.4. 2025
Zdroje:
- Dall-E [online]. [cit. 07. 04. 2025]. Dostupné z: https://openai.com/index/dall-e/
2. ChatGPT – DALL·E [online]. [cit. 09. 04. 2025]. Dostupné z: https://chatgpt.com/g/g-2fkFE8rbu-dall-e