Naše webové stránky obsahujú odkazy na partnerské weby. Ak sa prekliknete z našich stránok na stránky partnera a tam si zakúpite jeho služby, obdržíme za sprostredkovanie províziu (Zistiť viac informácií). Táto forma spolupráce nijako neovplyvňuje objektívnosť našich recenzií. Každým nákupom cez kliknutie z našich stránok podporíte našu redakciu, aby sme aj do budúcnosti mohli tvoriť kvalitný a užitočný obsah. Ďakujeme.
Dôležité upozornenie Všetky naše články píšu skutoční ľudia. Nie sú to umelé texty od stroja.
Ktorý AI generátor obrázkov je lepší, Midjourney alebo DALL.E 3?
Obsah
Doteraz som považovala Midjourney za najlepší nástroj na generovanie obrázkov z textu a Chat GPT-4 za najlepší jazykový model. V priebehu októbra sprístupnila Open AI novú verziu Chat GPT s integrovaným modelom DALL.E 3 na generovanie obrázkov. Šliape DALL.E 3 Midjourney na päty?
- Vygenerujeme obrázky v rôznych štýloch pomocou rovnakých promptov.
- Porovnáme dostupnú funkcionalitu oboch nástrojov.
Vygenerované obrázky sú súčasťou článku, môžete ich zhodnotiť spolu s nami. Zrejme sa nedá úplne objektívne vyhlásiť, ktorý z nich je lepší, záleží to aj od účelu použitia obrázkov.
Midjourney
Midjourney pochádza z nezávislého výskumného laboratória v San Francisku vedeného Davidom Holtzom. Stály pracovný tím Midjourney tvorí len 11 ľudí.
- V marci a apríli 2022 prebiehalo strojové učenie na veľkom množstve obrázkov a boli testované prvé verzie Midjourney.
- Pre všetkých používateľov bola sprístupnená verzia v4 v novembri 2022. Spočiatku bolo možné používať aj free verziu.
- Ďalšie verzie nasledovali v marci 2023 v5, v máji 2023 v5.1, v júni 2023 v5.2.
- Okrem toho v spolupráci Midjourney a Spellbrush vznikajú samostané verzie niji, zamerané na obrázky v štýle japonskch komiksov – anime.
DALL.E 3
DALL.E je produktom firmy Open AI,
- Prvý model DALL·E bol sprístupnený v januári 2021, bol postavený ma jazykovom modeli GPT-3.
- DALLE.E 2 bol v júli 2022 sprístupnený pre milión používateľov zo zoznamu čakateľov, s možnosťou vygenerovať určitý počet obrázkov zadarmo a možnosťou dokúpiť si kredity na ďalšie. V tejto testovacej fáze sa firma zamerala na sledovanie etickej zaujatosti. Pre všetkých používateľov bol sprístupnený v septembri 2022.
- V novembri 2022 bol model DALL.E 2 sprístupnený ako API s možnosťou integrácie do rôznych aplikácií.
- Najnovší model DALL.E 3 bol pre používateľov sprístupnený postupne počas októbra 2023.
Porovnanie funkcionality Midjourney a DALL.E 3
Vlastnosti | Midjourney | DALL.E 3 v Chat GPT |
---|---|---|
Zadávanie promptu | Cez četovú aplikáciu Discord. | Cez Chat GPT. Aj ako webová aplikácia.Microsoft implementoval model do Image Creatora v prehliadači Bing. Sprístupnenie API sa očakáva neskôr v priebehu roka 2023. |
Štruktúra promptu | Opis obrázka musí byť štrukturovaný, doplnený rôznymi parametrami v predpísanej štruktúre. | Opis obrázka môže byť zadaný konverzačným spôsobom. Následne Chat GPT sformuluje prompt pre Dall.E 3 |
Jazyk promptu | Angličtina. | Angličtina, slovenčina, čeština. |
Počet vygenerovaných obrázkov z 1 promptu | 4 | Väčšinou 4. Pre jednoznačne pochopiteľný prompt však môže poskytnúť iba 1 alebo 2 obrázkové výsledky. |
Možnosť sťahovania obrázkov / Úložisko obrázkov | Obrázky sú dostupné na stiahnutie v čete. Hromadné stiahnutie je možné cez web Midjourney.com, umožnené je sťahovať zazipované sety obrázkov, výber po dňoch. Je dostupná aj nová beta verzia archívu, kde download v dávkach zatiaľ nie je možný. Používateľmi to bolo pripomienkované a dúfam, že možnosť bude doplnená. | Obrázky sú dostupné na stiahnutie priamo v čete. |
Zobrazenie textu v obrázkoch na základe zadania v prompte | Fungujú iba jednotlivé písmená v 80% prípadov. | Zobrazí sa celý text podľa zadania. V angličtine väčšinou bezchybne, v slovenčine písmená s diakritikou robia problém. |
Ďalšia funkcionalita | Upscale obrázka, verzie obrázka, dogenerovanie časti obrázka. Možnosť použiť aj predošlé verzie aplikácie. | - |
Cena | Rôzne balíky: Basic Plan - 10 USD/mesiac Standard Plan - 30 SD/mesiac Pro Plan - 60 USD/mesiac Mega Plan - 120 USD/mesiac Možnosť získať čas na serveri pomocou hodnotenia dvojíc obrázkov. | Súčasť platenej verzie GPT-4. Balík Plus - 20 USD/mesiac Balík Enterprise |
Príručka používania | Dostupná na webe Midjourney. | Formou FAQ na webe Open AI. |
Komunita | Priamo v Discorde je veľká komunita, možnosť komunikácie s rôznymi kreatívcami. Pre platené programy si môžete vytvoriť súkromný server. | V Chat GPT komunikujete iba s umelou inteligenciou. |
Porovnanie obrázkov z Midjourney a DALL.E 3
Vyskúšala som rôzne scény a rôzne štýly obrázkov. Ukázalo sa, že DALL.E 3 integrovaný do Chat GPT výborne rozumie kontextu, jeho obrázky sú plné detailov, ktoré ste v popise zadali. Midjourney, aj keď vám poskytne pekné obrázky, nevie dať do nich toľko detailov. Pozrite si výsledné obrázky a zhodnoťte ich spolu so mnou!
Fotorealistický štýl – osoby
Kam čert nemôže, pošle ženu? Často ako sprievodné obrázky na upútanie pozornosti bývajú zvolené krásky. Ako si s nimi Midjourney a DALL.E 3 poradia?
Môj text pre GPT znel:
„Potrebujem obrázok na web, ktorý propaguje ambulanciu zubného lekára. Na obrázku je pacientka usadená v zubárskom kresle. Pacientka sa usmieva, má krásne súmerné biele zuby. Je to moderná zubná ambulancia, kde je poriadok, na stole je počítač s otvorenou RTG snímkou.“
GPT na základe tejto inštrukcie napísal prompt:
„Wide image for a dental clinic website promotion. The scene showcases a modern dental office with neat and clean surroundings. A female patient is seated in a dental chair, smiling broadly, revealing her symmetrically perfect white teeth. Nearby, a table holds a computer with an open X-ray image of teeth displayed on the screen.“
Tento prompt som následne použila aj v Midjourney. Porovnajte výsledky:
![01 Dalle3 Gpt Generovany Obrazok Pacientka](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/01-dalle3-gpt-generovany-obrazok-pacientka-1024x585.webp)
Fascinuje ma RTG snímka. Ak si niekde na internete vyhľadáte RTG zubov, zistíte, že sú aj v tomto vygenerovanom obrázku
zobrazené v správnom rozložení a počte, dokonca majú správne rozložené zubné korene.
![02 Midjourney Vygenerovany Obrazok Pacientka](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/02-midjourney-vygenerovany-obrazok-pacientka-1024x683.png)
Na obrázku je skôr zubárka ako pacientka. Pohľad na RTG snímky zubov je oproti DALL.E 3 dosť zábavný.
Pri používaní nástrojov sa cibríte aj v tom, ako propmty zadávať, v Midjourney sa mi napríklad osvedčilo najdôležitejšie požiadavky zadávať na začiatku promptu, a opisovať obrázok po menších častiach, preto som prompt trochu upravila, očakávajúc lepší výsledok:
„A female is seated in a dental chair, the female is smiling broadly and revealing her symmetrically perfect white teeth. Nearby is a table with computer, there is X-ray image of teeth displayed on the screen of computer. The scene showcases a modern dental office with neat and clean surroundings. –ar 9:6“
![03 Midjourney Vygenerovany Obrazok Pacientka](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/03-midjourney-vygenerovany-obrazok-pacientka-1024x683.png)
nie je tam zubárske kreslo a RTG snímky sú nevydarené.
Fotorealistický štýl – osoby 2
Skúsila som, jednoduchšiu scénu. Inštrukcia pre GPT znela:
„Potrebujem obrázok dievčaťa. Dievča stojí na lúke pri dubovom strome. Dievča má oblečené športové oblečenie, je na túre. Na krku má mulifunkčnú tunelovú šatku. Má dlhé blond vlasy. V rukách drží mobil a pozerá sa doň, hľadá niečo v mape. Obrázok je fotka pre turistický magazín a instagramové konto dievčaťa.“
GPT vygeneroval prompt:
„Wide photo suitable for a travel magazine and girl’s Instagram account. It captures a girl standing in a lush meadow, next to a sturdy oak tree. She’s dressed in athletic wear, indicating she’s on a hiking adventure. A multifunctional tunnel scarf adorns her neck. Her long, blonde hair shines in the sunlight. She’s deeply engrossed in her mobile phone, seemingly searching for a location on a map.“
Z dvoch poskytnutých výsledkov DALL.E 3 som vybrala presnejší. Ten istý prompt som použila aj v Midjourney. Porovnajte výsledky:
![04 Chat Gpt Dievca Na Ture](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/04-chat-gpt-dievca-na-ture-1024x585.webp)
strom má pokrútené konáre, ako duby mávajú, ale kôra stromu sa na dub nepodobá.
![05 Midjourney Dievca Na Ture](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/05-midjourney-dievca-na-ture-1024x683.png)
Fotorealistický štýl – predmety
Ste tvorca webu, či copywriter, ktorý potrebuje vhodným obrázkom doplniť text? Môžete to skúsiť s vygenerovaným obrázkom.
Môj text pre GPT znel:
„Prosím, potrebujem obrázok na web, ktorý je zameraný na tepovanie sedačiek. Na obrázku je biela sedačka, za ňou je abstraktný obraz na stene, v ružových a sivch tónoch. Dolu na dlážke je sivý koberec. Sedačka je sčasti vyčistená, polovica krásna a druhá polovica je ucapkaná, špinavá, akoby zašednutá používaním, zatiaľ nevytepovaná.“
GPT na základe tejto inštrukcie napísal prompt:
„Photo suitable for a sofa cleaning website. In the scene, a white sofa is depicted, where one side is clean and pristine, while the other is visibly stained, soiled, and faded from wear. The backdrop features an abstract artwork in pink and gray tones on the wall, and a complementing gray rug lies beneath the sofa.“
Z dvoch poskytnutých výsledkov DALL.E 3 som vybrala presnejší. Ten istý prompt som následne použila aj v Midjourney. Porovnajte výsledky:
![06 Gpt Dalle3 Sedacka](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/06-gpt-dalle3-sedacka-1024x585.webp)
![07 Midjourney Sedacka](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/07-midjourney-sedacka-1024x683.png)
fľakatá je skôr stena ako sedačka, na stene nevisí obraz…
Animovaný štýl
Pod’me si vygenerovať ilustrácie do detskej knihy.
Inštrukcia pre GPT:
„Prosím ťa potrebujem obrázok – ilustráciu do detskej knihy, ilustrácia je akvarelovými farbičkami a vodovými farbami. Na obrázku je malé dieťa uložené v postieľke. Má pásikavé pyžamo, drží v ruke plyšovú žirafu, túli sa k nej, je zakryté obláčikovou prikrývkou. Vedľa v kresle sedí stará mama so sivými vlasmi zopnutými v drdole, na nose má okuliare a číta mu rozprávku z knihy.“
Chat GPT na jej základe vygeneroval tento prompt:
„Watercolor painting suitable for a kid’s storybook. A cozy bedroom scene where a young child in striped PJs is tucked into bed, hugging a stuffed giraffe toy, beneath a blanket adorned with clouds. By the bedside, an old grandma with her silver hair in a bun and spectacles on her nose, sits in an armchair, engrossed in reading a story from a book to the child.“
Porovnajte výsledky:
![08 Gpt Dalle3 Babicka Cita](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/08-gpt-dalle3-babicka-cita.png)
![09 Midjourney Baibicka Cita](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/09-midjourney-baibicka-cita-1024x683.png)
Neplatí, že prompt z jedného nástroja rovnako dobre funguje aj v inom nástroji. Preto som trochu spresnila prompt pre Midjourney, znova v očakávaní lepšieho výsledku:
„Watercolor painting for a kid’s storybook. A cozy bedroom scene where a young child in striped PJs is laying in the bed, child is covered with a cloudy pattern blanket, child is hugging a stuffed giraffe toy. Next to bed is grandma, grandma is sitting in a chair, grandma has silver hair in a bun and glasses, she is reading a book to the child. –ar 9:6“
![10 Midjourney Babicka Cita](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/10-midjourney-babicka-cita-1024x683.png)
ilustrácia je však pekná a použiteľná, čo myslíte?
Umelecké štýly – náčrt kriedou
Midjourney vo veľkom využívam na obrázky v rôznych umeleckých štýloch pre moje hand made tvorenia. Vyskúšala som oba nástroje z kresby kriedou.
Popis pre Chat GPT znel takto:
„Náčrt postavy anjela oranžovou kriedou na modrom papieri, je to náčrt historického maliara pre fresku v kostole – anjelik je v barokovom štýle, s fluffy telom a kučeravými vlasmi, má krídla a drží husle.“
DALL.E 3 ma zase prekvapil! Jednak dokonale vystihnutou kriedovou kresbou, avšak aj správnym pochopením hry na husle. Midjourney často nerozumie kontextu, ako sa rôzne nástroje používajú. Veď porovnajte:
![11 Chat Gpt Dalle3 Anjel Baroko](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/11-chat-gpt-dalle3-anjel-baroko.png)
Prompt od Chat GPT som použila následne aj v Midjourney:
„Sketch of an angelic figure drawn with orange chalk on blue paper. The drawing is reminiscent of a design by a historical painter for a fresco in a church. The angel is depicted in a Baroque style, with a fluffy body, curly hair, wings, and holding a violin.“
![12 Midjourney Anjel Baroko](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/12-midjourney-anjel-baroko-1024x1024.png)
Na obrázkoch je preto podľa mňa zjavné, že sú tvorené pomocou AI.
Zahrnutie textu/nápisu do obrázka
Najskôr som vyskúšala vytvoriť kreslený vtip so slovenskými textami v bublinách, následne s anglickými textami.
DALL.E 3 si poradil so slovenskou diakritikou len čiastočne, anglický text bol v jednom prípade bezchybný, v druhom prípade s maličkou chybou:
![13 Gpt Dalle3 Sliepky](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/13-gpt-dalle3-sliepky-1024x769.png)
![14 Gpt Dalle3 Sliepky](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/14-gpt-dalle3-sliepky-1024x833.png)
Midjourney sa texty zatiaľ vôbec nedaria, použila som prompty, ktoré na základe môjho popisu pripravil Chat GPT pre DALL.E 3:
„Illustration of two chickens strolling down a countryside road. As they talk to each other, a looming truck is seen coming their way from behind. One of the alarmed chickens exclaims ‚Pozor náklaďááák!‘ in a speech bubble.“
![15 Midjourney Sliepky](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/15-midjourney-sliepky-1024x1024.png)
Druhý prompt:
„Illustration of a scene where an ordinary hen and an Oracle hen sit facing each other at a table draped with a white tablecloth. The central focus is a glowing crystal ball which shows a KFC bucket filled with fried chicken. The ordinary hen, looking worried, asks in a speech bubble, ‚Will I complete my bucket list?‘. The Oracle hen, with a wise demeanor, replies, ‚Not yours, but someone’s.‘ „
![16 Midjourney Sliepky](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/16-midjourney-sliepky-1024x1024.png)
Kontext vtipu bol pochopený, avšak chýba pointa vtipu – KFC vedierko. Texty sa nevydarili.
Prišli ste porovnaním obrázkov k rovnakému záveru ako ja? DALL.E 3 oveľa presnejšie ako Midjourney plní inštrukcie. Chápe kontext zadania a vygenerovaný obrázok obsahuje detaily, ktoré ste popísali. Midjourney si s niektorými detailami zatiaľ nevie rady.
Rozpoznávanie obrázkov pomocou Chat GPT
V druhej polovici septembra 2023 Open AI ohlásila aj postupné sprístupňovanie novej funkcionality Chat GPT:
- Hlasové ovládanie a hlasové výstupy v mobilnej aplikácii Chat GPT.
- Možnosť rozpoznávať obrázky.
Open AI to poeticky nazvala ako schopnosť GPT počuť, vidieť aj hovoriť. Funkcionalita bola postupne sprístupnená platiacim používateľom.
Otestovala som, hlavne funkcionalitu na rozpoznávanie obrázkov, pretože sa môže zdať výhodné použiť ju aj pri generovaní obrázkov:
- Nájdete si obrázok na internete a necháte Chat GPT, aby si ho „prezrel“ a aby vám ho popísal.
- Popis môžete použiť na vygenerovanie pdobného obrázka, cez beta verziu Chat GPT s integrovaným DALL.E 3.
Vyskúšala som najrôznejšie chytáky. Kde som Chat GPT nachytala na hruškách?
- Obrázok, v ktorom bolo zrkadlové písmo v slovenčine (v angličtine boli odčítané aj zrkadlovo napísané slová správne).
- Obrázky byliniek a ich použitie.
- Zápalkové hlavolamy – správne zrátané počty zápaliek, ale logika za nimi nepochopená.
- Čivava alebo cookies? Niektoré očká a čučoriedky nerozoznal GPT správne.
- Známa detská knižka „Kde je Waldo?“ – aj pre GPT je ťažké Walda v mase ľudí nájsť.
- Stereogram.
Najkreatívnejšie použitie mi opísal kolega: Nie je programátor a robil stránku v Bootstrape, nevedel si sam poradiť s naštýlovaním komplikovanejšej tabuľky. Keď nahodil kód, ktorý mu poradil Chat GPT, tak stále nebol s výsledkom spokojný. Vložil obrázok s výstrižkom obrazovky a popísal chybu. Na základe toho Chat GPT navrhol opravu v kóde a tabuľka sa zobrazila ako mala.
Rovnakú funkcionalitu má aj Midjourney – namiesto čarovného slovka „/imagine“ zadáte „/describe“ a dostanete 4 popisy uploadnutého obrázka. Niektoré z popisov sedia, niektoré sú menej presné. Táto črta je veľmi často využívaná tvorcami obrázkov – uploadnú obrázok a vygenerovaný popis použijú ako prompt.
![18 Midjourney Rozpoznanie Obrazka Describe](https://www.webhostingcentrum.sk/wp-content/uploads/2023/10/18-midjourney-rozpoznanie-obrazka-describe-681x1024.png)
Zhrnutie a záver
Pokrok v generovaní obrázkov pomocou AI je nepopierateľný, nové funkcionality pribúdajú rýchlym tempom vo všetkých aplikáciách.
Midjourney (podľa môjho subjektívneho vkusu) o trošičku lepšie zvláda fotorealistické obrázky. Dievčatá a ženy z Midjourney sú prirodzenejšie ako z DALL.E, kde majú nábeh na umelý „duck face“ – veľké oči, veľké pery.
Avšak Mdjourney zďaleka nedokáže tak presne splniť inštrukcie ako DALL.E 3!
DALL.E 3 lepšie rozumie kontextu. DALL.E 3 vo výsledných obrázkoch väčšinou má zakomponovanú každú informáciu uvedenú v prompte, Midjourney nie. V tomto zmysle naozaj DALL.E 3 šliape Midjourney na päty, ba v pretekoch ju prešprintoval. Keď zlepší grafické prevedenie obrázkov, tak sa máme na čo tešiť!
Máte chuť a možnosť vyskúšať si oba nástroje? Ktorý je váš osobný víťaz a prečo? Podeľte sa s nami so svojimi skúsenosťami v komentároch.