Generování obrázků s ChatGPT přináší nové funkce a široké spektrum využití

OpenAI je jednou z nejúspěšnějších společností co se vývoje umělé inteligence týče, nicméně v jedné oblasti dosud pokulhával za konkurencí, a to v generování obrázků. Ačkoli její dřívější nástroj DALL-E patřil mezi revoluční v doméně vizuální tvorby, jeho konkurenti jako je Midjourney, Grok nebo Gemini od Googlu ho začali výrazně předbíhat. Zatímco ostatní AI generátory obrázků zvládali realistické scény i portréty celebrit, DALL-E si vystačil především s ilustracemi. To se ale s novým updatem mění.

Nový AI generátor obrázků integrovaný přímo do ChatGPT, poháněný jazykovým modelem GPT-4o, přináší výrazný posun kupředu. Tvorba AI obrázků je nyní přirozená a lze tvořit přímo v chatu. Stačí zadat prompt, nahrát fotku nebo třeba skicu a nechat umělou inteligenci vám vytvořit výstup podle vašich představ.

Možnost využívat funkci generování obrázků je nyní součástí ChatGPT napříč všemi tarify – Free, Plus, Pro a Team. Uživatelé s placenými plány mají přístup k plné verzi nástroje bez omezení, zatímco v bezplatném režimu je počet obrázků výrazně omezený, i tak je ale nová funkce použitelná pro běžné uživatele.

Obrázkový nástroj se stal velmi populární, ostatně stejně jako každý update od OpenAI. Nicméně i zakladatel OpenAI Sam Altman byl překvapený do jaké míry a prohlásil: „Je to mnohem úspěšnější, než jsme čekali. A to jsme měli očekávání dost vysoká.“

Generování obrázků s ChatGPT je možné i v naší aplikaci OCTODEEP, která mimo GPT 1 Image agreguje i další grafické modely jako je dřívější model od OpenAI DALL-E 3, Stable Diffusion XL, Essential V2, Flux Schnell, Grok 2 Image, Imagen-3.0 a Photon.

Co umí nový generátor obrázků od ChatGPT?

Nový generátor obrázků integrovaný do ChatGPT-4o, interně pojmenován GPT 1 Image, je více než jen upgradem předchozího DALL-E 3. Jde o zcela přepracovaný systém, který dokáže vytvářet realistické, přesné a kontextuálně přesnější vizuály, a to přímo v rámci běžné konverzace s ChatGPT.

V dřívějším nástroji jste zadali prompt, čekali na výsledek a ve většině případů jste museli prompt upravit nebo začít úplně od znova. Nový přístup GPT-4o kombinuje silné funkce jazykového modelu s vizuálním výstupem.

AI generátor GPT-4o rozumí předchozí konverzaci (včetně detailů, které jste zmínili před xy zprávami), umí navrhnout obrázek odpovídající tónu, tématu i stylu, dokáže navázat na kontext již vygenerovaného obrázku.

Například můžete nejprve vytvořit plakát ke koncertu a pak do promptu přidat: „Přidej tam ještě datum a udělej z pozadí noční město místo pouště,“ a model upraví obrázek místo toho, aby začal generovat úplně nový.

Funkce nahrání vlastního obrázku

GPT-4o nyní umožňuje nahrát vlastní skicu, fotografii nebo koláž. Poté už stačí jen zadat, co má být změněno (např. barevnost, přidání objektu, změna stylu) a GPT-4o vám poskytne vizuálně konzistentní výstup. To znamená, že lze například vzít hrubý návrh loga, který jste načrtli na papíře, a nechat ho model překreslit do elegantní digitální podoby včetně barev a typografie.

Čitelný text v obrázcích

DALL-E měl potíže s generováním přesného textu, často docházelo k deformacím písmen nebo podivným znakům. GPT-4o přináší zásadní zlepšení. Generuje přesný a čitelný text, včetně diakritiky a jazykových variant (např. češtiny), dokáže vizuálně sladit fonty se stylem výstupu např. vintage ručně psané plakáty, neonové nápisy, editorialy aj.

Prompt (ze stránek OpenAI): Vytvoř fotorealistický obrázek dvou čarodějek ve věku okolo dvaceti let (jedna s vlasy v odstínu ash balayage, druhá s dlouhými vlnitými kaštanově rezavými vlasy), které si čtou dopravní značky na ulici.

Kontext: Scéna se odehrává na náhodné ulici ve čtvrti Williamsburg, New York. Na pravé straně ulice je sloup zcela pokrytý množstvím detailních dopravních značek – například o hodinách úklidu ulice, nutnosti parkovacích povolení, klasifikaci vozidel, odtazích apod. Uprostřed mezi nimi jsou i tři absurdní značky, které ale musí působit realisticky a úředně:

„Parkování košťat pro čarodějky není povoleno v zóně C“
„Nakládání a vykládání létajících koberců pouze (časový limit 15 minut)“
„Parkování pro soby pouze na povolení (24.–25. prosince)\n Porušení = zařazení na seznam zlobivých“

Značky se nesmí opakovat a všechny musí vypadat jako skutečné oficiální cedule.

Postavy: Jedna čarodějka drží koště, druhá má srolovaný létající koberec. Stojí v popředí, mírně zády ke kameře, s hlavami nakloněnými, jak si se zaujetím prohlížejí značky.

Kompozice (od pozadí k popředí): ulice + zaparkovaná auta + budovy → sloup se značkami → čarodějky.
Postavy musí být nejblíže k „kameře“, která scénu snímá.

Zdroj: OpenAI
Obrázek vygenerovaný na základě výše uvedeného promptu.

Realismus a stylizace

GPT 1 Image zvládne generovat realistické lidské tváře včetně emocí, složité prostředí s přirozenými proporcemi a nedělají mu problém ani stylizované nebo fotorealistické výstupy (od kreslených stylů až po „skutečné“ fotografie).

Oproti DALL-E je výrazně lepší v proporcích, nasvícení a věrnosti detailům, například v podobě očí, rukou nebo architektury.

Prompt: Udělej mi realistickou momentku ve stylu paparazzi fotografie zachycující Salvadora Dalího jak kráčí Pařížskou ulicí v Praze se svým mravenečníkem na vodítku v jedné ruce, v druhé má tašku s luxusním zbožím. Přes rameno hází významný sebevědomý pohled, jako kdyby byl pyšný na to, že je fotografován. Jeho dlouhý černý kabát vlaje ve větru za ním. Rozmazané budovy za ním podtrhují dojem pohybu. Záblesk fotoaparátu částečně přeexponoval část snímku a dodává celé scéně chaotický, bulvární vzhled.

Zdroj: ChatGPT.com

Interaktivní designový nástroj

GPT 1 Image je možné využít pro brainstorming tvůrčích nápadů, pracuje s vámi v reálném čase, dokáže reagovat na zpětnou vazbu a upravit výstup podle vašich představ. Nemusíte mít zkušenosti s designem, stačí běžně formulovat požadavky, a model se jim postupně přizpůsobí. Díky tomu je ideální nejen pro běžné uživatele, ale i pro marketéry, grafiky nebo tvůrce obsahu, kteří chtějí rychle a efektivně vizualizovat své nápady.

DALL-E vs. GPT 1 Image

GPT 1 Image svými funkcemi značně přesahuje DALL-E 3 především svými realistickými výstupy a integrací přímo v chatu GPT-4o. Zde je kompletní porovnání těchto dvou grafických modelů:

Funkce / Vlastnost	DALL·E (v ChatGPT)	GPT-4o Image Generator
Integrace do chatu	Jen částečná, vyskakovací okno	Plně nativní, funguje jako běžná odpověď
Schopnost generovat text v obrázku	Omezená, často s chybami	Výrazně lepší, čitelné texty i v češtině
Porozumění kontextu	Slabší, nutnost opakovaného zadávání	Silné, využívá předchozí zprávy v chatu
Úpravy nahraných obrázků	Neumožňuje	Ano – změna barev, stylu, přidání objektů
Realismus výstupů	Ilustrační, stylizovaný vzhled	Vysoká míra fotorealismu
Komplexnost scén	Jednodušší kompozice (do 5–8 prvků)	Schopnost vykreslit složité scény (15+ objektů)
Rychlost	Delší čekání, fronty	Rychlejší generování (i pod minutu)
Verze zdarma	Nedostupné nebo omezené	Dostupné (3 generace denně, bez úprav)

🐙 TIP:
Jestliže vás zajímají přesné funkce nástroje DALL-E, můžete si o něm přečíst více u nás na blogu: DALL-E.

Praktické využití generování obrázků s ChatGPT

AI generátor obrázků od ChatGPT je všestranný nástroj, který vám může pomoct i tam, kde byste jinak potřebovali grafika, marketéra nebo dlouhé hledání na fotobankách.

GPT 1 Image je využitelný pro:

Práci a podnikání

Marketingové vizuály

Prompt: „Vygeneruj mi vintage vizuál pro kampaň malé kavárny, pozadí je starorůžové s grain efektem, fotka cappucina s latteartem labutě v bledě modrém hrnku, nahoře je nápis také v bledě modré: „Nově otevřeno“ a pod tím nápis „Café“.

Mockupy produktů

Prompt: „Produktová fotografie balení čaje, přírodní světlo, zelená paleta, elegantní typografie“

Zdroj: ChatGPT.com

Ideální pro e-shop, prezentaci nebo branding.

Návrhy loga a firemní identity

Nahrajete ruční skicu, přidáte popis (barvy, styl, písmo) a během minuty máte vizuální návrh, který můžete ladit dál.

Tvůrce a umělce

Obálky knih, alb, podcastů

Prompt: „Obálka knihy „Směšné lásky“ od Milana Kundery v hravě ironickém stylu, v černobílé barvě, minimalistická silueta muže a ženy jak se drží za ruce“

Zdroj: ChatGPT.com

Vhodný pro rychlý vizuální koncept i finální návrh.

Storyboardy pro videa a divadlo

GPT 1 Image dokáže generovat vizuály na základě popisu scén, včetně emocí a prostředí.

Prompt: „Postava sedí v temném pokoji dívá se z okna se zasmušilým pohledem s podtónem zloby, na obličeji se mu odráží světlo z ulice prosvítající přes žaluzii, noir styl.“

Každodenní použití

Dárky a personalizované vizuály

Např. obrázek na přáníčko: „Roztomilý obrázek kočky na pláži s nápisem ‘Díky, že jsi!’ v dětském stylu“.

Vizuální moodboard pro bytový design

Prompt: „Ložnice v Boho stylu s vintage prvky, tmavé dřevo, starorůžové textilie, pokojové rostliny.“

🐙 TIP:
Jestliže s generováním obrázků teprve začínáte a chcete se inspirovat, můžete vyzkoušet naši knihovnu inspirací v aplikace OCTODEEP. Jak s ní pracovat se můžete podívat v článku na našem blogu: AI grafika v aplikaci OCTODEEP.

Omezení při generování obrázků s ChatGPT

Přestože je generátor obrázků v rámci ChatGPT-4o na vysoké úrovni, má i své chyby. OpenAI upozorňuje na několik aktuálních omezení, která plánuje postupně zlepšovat v dalších verzích.

Model má tendenci ořezávat delší obrázky (např. plakáty) příliš těsně, zejména u spodního okraje. Může tak chybět část textu nebo grafiky.

Stejně jako jazykové modely může i tento „vymýšlet“ detaily (halucinace obsahu), pokud nedostane dostatek kontextu. Platí to především u vágních nebo krátkých promptů.

Při generování složitých kompozic (např. celá periodická tabulka nebo 20+ objektů) může docházet k chybám v přesnosti i rozložení prvků.

Zatímco angličtinu a většinu jazyků používajících latinku zvládá dobře, při vykreslování znakových písem (např. čínština, korejština) se mohou objevovat chyby nebo zkreslení znaků.

Pokud požádáte model o úpravu konkrétní části obrázku (např. opravit překlep), výstup nemusí být vždy spolehlivý. Může změnit i jiné části obrázku, nebo přidat nové chyby.

Model má potíže se zobrazením malého textu nebo hustých dat, např. v infografikách. Písmena mohou být špatně čitelná nebo deformovaná.

🐙 TIP:
Pokud generujete něco složitějšího, buďte konkrétní a využijte následné upřesnění nebo dílčí úpravy v několika krocích. Můžete se podívat na náš článek: Jak vytvořit obrázek pomocí umělé inteligence.

Srovnání generátorů obrázků ChatGPT vs. Midjourney, Gemini a Stable Diffusion

S releasem nového GPT 1 Image se mění poměry mezi předními nástroji v oblasti vizuální tvorby promocí umělé inteligence. Každý nástroj má nepochybně své silné a slabší stránky.

Zde je tabulka, která porovnává funkce jednotlivých nástrojů:

Funkce / Model	GPT‑4o (ChatGPT)	Midjourney	Stable Diffusion XL	Gemini (Google)
Realismus výstupů	🔥 Vysoký, zvládne fotky, tváře, světlo, emoce	🔥 Velmi vysoký a stylizovaný	✅ Dobrá kresba, ale méně přesná tvář	🔄 Nevyrovnané, slabší kompozice
Text v obrázcích	✅ Přesný, čitelný, včetně diakritiky	❌ Slabý, často nelze přečíst	❌ Slabý text, deformace	❌ Nespolehlivé
Editace obrázků	✅ Ano (změny barev, stylu, doplnění objektu)	❌ Ne, čistě generativní	✅ Částečně – pomocí aplikací	❌ Bez podpory
Porozumění kontextu	✅ Silné, navazuje na předchozí chat	❌ Každý prompt zvlášť, bez kontextu	❌ Izolované zadání	❌ Omezené
Snadnost použití	✅ V chatu, přirozené jako konverzace	🔄 Nutno znát parametry, promptování	🔄 Složitější instalace / nástroje	✅ Webové rozhraní
Stylizace	✅ Vše od fotek po kresbu, volitelně	🔥 Silná stylizace, estetické scény	✅ Podporuje styly	🔄 Omezené a někdy generické
Zvládnutí komplexních scén	✅ Ano, i 15–20 objektů	✅ Výborné kompozice	🔄 Záleží na promptu	❌ Často chaotické

🐙 TIP:
Kdybyste se chtěli podívat, jak se liší výstupy jednotlivých grafických modelů,
můžete se na to mrknout v našem článku na blogu: AI Generátor Obrázků.

Doporučení podle typu uživatele

Pro marketéry a obsahové tvůrce se nejvíce hodí vizuální generátor od GPT-4o, a to zvlášť pro jeho schopnost generovat čitelné texty, upravovat obrázky a fungovat v běžném chatu. Ideální pro bannery, posty, infografiky nebo vizuály ke článkům.

Pro ilustrátory a umělce je nejlepší volbou Midjourney. Hodí se pro tvorbu stylizovaných scén, uměleckých projektů a přidání efektních detailů. Pokud vám nevadí složitější ovládání a omezená dostupnost přes discord pak určitě oceníte jeho vizuální sílu.

Pokročilí uživatelé a vývojáři využijí Stable Diffusion XL, který nabízí otevřenost, možnost trénování vlastních modelů a kontrolu nad výstupem. Nehodí se pro rychlou práci nebo běžné uživatele bez technických znalostí.

Pro běžného uživatele je nejlepší GPT 1 Image integrovaný v GPT-4o, nepotřebuje žádnou instalaci ani parametry, stačí běžná konverzace a umělá inteligence vygeneruje obrázek, upraví ho podle zpětné vazby a zvládne i přidat text nebo upravit fotky.

Etické a bezpečnostní aspekty generovaní vizuálního obsahu

Generování obrázků s ChatGPT s sebou přináší i určitá rizika a omezení v generování určitého obsahu, které by se neměli ignorovat. Vývojáři z OpenAI implementují ochranné mechanismy, ale odpovědnost za používání zůstává do velké míry na uživatelích.

Deepfaky a zneužití identity

AI dokáže vytvořit fotorealistické tváře veřejně známých osob i fiktivních postav. To otevírá dveře k parodiím, ale i k potenciálnímu zneužití, např. při šíření dezinformací a podvodných reklam. OpenAI proto aktivně blokuje generování některých známých osobností a vkládá do obrázků neviditelný vodotisk a C2PA metadata pro ověření původu.

Obsahové limity

Model odmítá vytvářet násilné, explicitní nebo politicky citlivé výjevy a obrázky, které by mohly být zneužity k obtěžování nebo manipulaci. Přesto je možné prompt obejít, je tedy nutná jistá obezřetnost.

Duševní vlastnictví a autorské styly

Ačkoli model netrénuje přímo na autorských dílech, výsledky mohou vizuálně připomínat známé umělce nebo brandy.

Například se po internetu šířil post takto upravených memů, které byly přetvořeny do do stylu Studia Ghibli. Tento konkrétní případ vyvolal pochybnosti ohledně dodržení autorských práv při trénování modelu. Dokonce i spoluzakladatel studia Hajao Mijazaki reagoval na záplavu AI vygenerovanách obrázků ve stylu filmu Můj soused Totoro řekl, že je „zcela znechucen“ a označil ji jako „urážku života samotného“.

Originální meme:

Zdroj: imgflip.com

AI upravený meme vygenerovaný ChatGPT-4o ve stylu studia Ghibli:

Zdroj: X

Nový generátor obrázků GPT 1 Image si můžete vyzkoušet i v naší aplikaci OCTODEEP ve verzi STARTER za 97,- měsíčně.

Vyzkoušejte aplikaci OCTODEEP ZDARMA

Aktualizováno: 11. 6. 2025

Zdroje:

Introducing 4o Image Generation [online]. [cit. 11. 06. 2025]. Dostupné z: https://openai.com/index/introducing-4o-image-generation/

Introducing our latest image generation model in the API [online]. [cit. 11. 06. 2025]. Dostupné z: https://openai.com/index/image-generation-api/

ChatGPT’s image-generation feature gets an upgrade | TechCrunch [online]. [cit. 11. 06. 2025]. Dostupné z: https://techcrunch.com/2025/03/25/chatgpts-image-generation-feature-gets-an-upgrade/

Nový generátor obrázků pro ChatGPT hýbe internetem | WIRED [online]. [cit. 11. 06. 2025]. Dostupné z: https://www.wired.cz/clanky/novy-generator-obrazku-pro-chatgpt-hybe-internetem