Porovanie Midjourney Dall.e 3

Naše webové stránky obsahujú odkazy na partnerské weby. Ak sa prekliknete z našich stránok na stránky partnera a tam si zakúpite jeho služby, obdržíme za sprostredkovanie províziu (Zistiť viac informácií). Táto forma spolupráce nijako neovplyvňuje objektívnosť našich recenzií. Každým nákupom cez kliknutie z našich stránok podporíte našu redakciu, aby sme aj do budúcnosti mohli tvoriť kvalitný a užitočný obsah. Ďakujeme.

Dôležité upozornenie Všetky naše články píšu skutoční ľudia. Nie sú to umelé texty od stroja.


WordPress Hero

Ktorý AI generátor obrázkov je lepší, Midjourney alebo DALL.E 3?

Doteraz som považovala Midjourney za najlepší nástroj na generovanie obrázkov z textu a Chat GPT-4 za najlepší jazykový model. V priebehu októbra sprístupnila Open AI novú verziu Chat GPT s integrovaným modelom DALL.E 3 na generovanie obrázkov. Šliape DALL.E 3 Midjourney na päty?

  • Vygenerujeme obrázky v rôznych štýloch pomocou rovnakých promptov. 
  • Porovnáme dostupnú funkcionalitu oboch nástrojov.

Vygenerované obrázky sú súčasťou článku, môžete ich zhodnotiť spolu s nami. Zrejme sa nedá úplne objektívne vyhlásiť, ktorý z nich je lepší, záleží to aj od účelu použitia obrázkov. 

Midjourney

Midjourney pochádza z nezávislého výskumného laboratória v San Francisku vedeného Davidom Holtzom. Stály pracovný tím Midjourney tvorí len 11 ľudí.

  • V marci a apríli 2022 prebiehalo strojové učenie na veľkom množstve obrázkov a boli testované prvé verzie Midjourney. 
  • Pre všetkých používateľov bola sprístupnená verzia v4 v novembri 2022. Spočiatku bolo možné používať aj free verziu.
  • Ďalšie verzie nasledovali v marci 2023 v5, v máji 2023 v5.1, v júni 2023 v5.2.
  • Okrem toho v spolupráci Midjourney a Spellbrush vznikajú samostané verzie niji, zamerané na obrázky v štýle japonskch komiksov – anime.

DALL.E 3

DALL.E je produktom firmy Open AI

  • Prvý model DALL·E bol sprístupnený v januári 2021, bol postavený ma jazykovom modeli GPT-3.
  • DALLE.E 2 bol v júli 2022 sprístupnený pre milión používateľov zo zoznamu čakateľov, s možnosťou vygenerovať určitý počet obrázkov zadarmo a možnosťou dokúpiť si kredity na ďalšie. V tejto testovacej fáze sa firma zamerala na sledovanie etickej zaujatosti. Pre všetkých používateľov bol sprístupnený v septembri 2022.
  • V novembri 2022 bol model DALL.E 2 sprístupnený ako API s možnosťou integrácie do rôznych aplikácií.
  • Najnovší model DALL.E 3 bol pre používateľov sprístupnený postupne počas októbra 2023.

Porovnanie funkcionality Midjourney a DALL.E 3

VlastnostiMidjourneyDALL.E 3 v Chat GPT
Zadávanie promptu Cez četovú aplikáciu Discord.

Cez Chat GPT. 

Aj ako webová aplikácia.

Microsoft implementoval model do Image Creatora v prehliadači Bing. 

Sprístupnenie API sa očakáva neskôr v priebehu roka 2023.
Štruktúra promptuOpis obrázka musí byť štrukturovaný, doplnený rôznymi parametrami v predpísanej štruktúre.

Opis obrázka môže byť zadaný konverzačným spôsobom.

Následne Chat GPT sformuluje prompt pre Dall.E 3

Jazyk promptuAngličtina.Angličtina, slovenčina, čeština.
Počet vygenerovaných obrázkov z 1 promptu4

Väčšinou 4.

Pre jednoznačne pochopiteľný prompt však môže poskytnúť iba 1 alebo 2 obrázkové výsledky.

Možnosť sťahovania obrázkov / Úložisko obrázkov

Obrázky sú dostupné na stiahnutie v čete.


Hromadné stiahnutie je možné cez web Midjourney.com, umožnené je sťahovať zazipované sety obrázkov, výber po dňoch.

Je dostupná aj nová beta verzia archívu, kde download v dávkach zatiaľ nie je možný. Používateľmi to bolo pripomienkované a dúfam, že možnosť bude doplnená.
Obrázky sú dostupné na stiahnutie priamo v čete.
Zobrazenie textu v obrázkoch na základe zadania v prompteFungujú iba jednotlivé písmená v 80% prípadov.Zobrazí sa celý text podľa zadania. V angličtine väčšinou bezchybne, v slovenčine písmená s diakritikou robia problém.
Ďalšia funkcionalita

Upscale obrázka, verzie obrázka, dogenerovanie časti obrázka. 

Možnosť použiť aj predošlé verzie aplikácie.

-
Cena

Rôzne balíky:

Basic Plan - 10 USD/mesiac

Standard Plan - 30 SD/mesiac

Pro Plan  - 60 USD/mesiac

Mega Plan - 120 USD/mesiac

Možnosť získať čas na serveri pomocou hodnotenia dvojíc obrázkov.

Súčasť platenej verzie GPT-4.


Balík Plus - 20 USD/mesiac

Balík Enterprise

Príručka používaniaDostupná na webe Midjourney.Formou FAQ na webe Open AI.
Komunita

Priamo v Discorde je veľká komunita, možnosť komunikácie s rôznymi kreatívcami.

Pre platené programy si môžete vytvoriť súkromný server.

V Chat GPT komunikujete iba s umelou inteligenciou.

Porovnanie obrázkov z Midjourney a DALL.E 3

Vyskúšala som rôzne scény a rôzne štýly obrázkov. Ukázalo sa, že DALL.E 3 integrovaný do Chat GPT výborne rozumie kontextu, jeho obrázky sú plné detailov, ktoré ste v popise zadali. Midjourney, aj keď vám poskytne pekné obrázky, nevie dať do nich toľko detailov. Pozrite si výsledné obrázky a zhodnoťte ich spolu so mnou!

Fotorealistický štýl – osoby

Kam čert nemôže, pošle ženu? Často ako sprievodné obrázky na upútanie pozornosti bývajú zvolené krásky. Ako si s nimi Midjourney a DALL.E 3 poradia?

Môj text pre GPT znel: 

„Potrebujem obrázok na web, ktorý propaguje ambulanciu zubného lekára. Na obrázku je pacientka usadená v zubárskom kresle. Pacientka sa usmieva, má krásne súmerné biele zuby. Je to moderná zubná ambulancia, kde je poriadok, na stole je počítač s otvorenou RTG snímkou.“

GPT na základe tejto inštrukcie napísal prompt: 

„Wide image for a dental clinic website promotion. The scene showcases a modern dental office with neat and clean surroundings. A female patient is seated in a dental chair, smiling broadly, revealing her symmetrically perfect white teeth. Nearby, a table holds a computer with an open X-ray image of teeth displayed on the screen.“  

Tento prompt som následne použila aj v Midjourney. Porovnajte výsledky:

01 Dalle3 Gpt Generovany Obrazok Pacientka
Obrázok z DALL.E 3 – je trošku vidno, že žena na obrázku je vymodelovaná. 
Fascinuje ma RTG snímka. Ak si niekde na internete vyhľadáte RTG zubov, zistíte, že sú aj v tomto vygenerovanom obrázku
zobrazené v správnom rozložení a počte, dokonca majú správne rozložené zubné korene.
02 Midjourney Vygenerovany Obrazok Pacientka
Obrázky z Midjourney – iba v jednom obrázku bola splnená inštruckia, že pacientka sedí v zubárskom kresle.
Na obrázku je skôr zubárka ako pacientka. Pohľad na RTG snímky zubov je oproti DALL.E 3 dosť zábavný.

Pri používaní nástrojov sa cibríte aj v tom, ako propmty zadávať, v Midjourney sa mi napríklad osvedčilo najdôležitejšie požiadavky zadávať na začiatku promptu, a opisovať obrázok po menších častiach, preto som prompt trochu upravila, očakávajúc lepší výsledok: 

„A female is seated in a dental chair, the female is smiling broadly and revealing her symmetrically perfect white teeth. Nearby is a table with computer, there is X-ray image of teeth displayed on the screen of computer. The scene showcases a modern dental office with neat and clean surroundings. –ar 9:6“

03 Midjourney Vygenerovany Obrazok Pacientka
Obrázky z Midjourney – Obrázky sú veľmi podobné prvému výsledku, na všetkých je namiesto pacienta lekárka,
nie je tam zubárske kreslo a RTG snímky sú nevydarené.

Fotorealistický štýl – osoby 2

Skúsila som, jednoduchšiu scénu. Inštrukcia pre GPT znela: 

„Potrebujem obrázok dievčaťa. Dievča stojí na lúke pri dubovom strome. Dievča má oblečené športové oblečenie, je na túre. Na krku má mulifunkčnú tunelovú šatku. Má dlhé blond vlasy. V rukách drží mobil a pozerá sa doň, hľadá niečo v mape. Obrázok je fotka pre turistický magazín a instagramové konto dievčaťa.“

GPT vygeneroval prompt: 

„Wide photo suitable for a travel magazine and girl’s Instagram account. It captures a girl standing in a lush meadow, next to a sturdy oak tree. She’s dressed in athletic wear, indicating she’s on a hiking adventure. A multifunctional tunnel scarf adorns her neck. Her long, blonde hair shines in the sunlight. She’s deeply engrossed in her mobile phone, seemingly searching for a location on a map.“ 

Z dvoch poskytnutých výsledkov DALL.E 3 som vybrala presnejší. Ten istý prompt som použila aj v Midjourney. Porovnajte výsledky:

04 Chat Gpt Dievca Na Ture
Obrázok z DALL.E 3 – je trošku vidno, že žena na obrázku je vymodelovaná a aj príroda za ňou,
strom má pokrútené konáre, ako duby mávajú, ale kôra stromu sa na dub nepodobá.
05 Midjourney Dievca Na Ture
Obrázky z Midjourney – Obrázky sú možno fotorealistickejšie, kôra stromov sa trošku viac podobá na dubovú, avšak nie je splnená inštrukcia, že dievča si prezerá mobil. Subjektívne ako najrealistickejšiu fotku dievčaťa hodnotím poslednú, v nej však chýba aj strom. 

Fotorealistický štýl – predmety

Ste tvorca webu, či copywriter, ktorý potrebuje vhodným obrázkom doplniť text? Môžete to skúsiť s vygenerovaným obrázkom.

Môj text pre GPT znel: 

„Prosím, potrebujem obrázok na web, ktorý je zameraný na tepovanie sedačiek. Na obrázku je biela sedačka, za ňou je abstraktný obraz na stene, v ružových a sivch tónoch. Dolu na dlážke je sivý koberec. Sedačka je sčasti vyčistená, polovica krásna a druhá polovica je ucapkaná, špinavá, akoby zašednutá používaním, zatiaľ nevytepovaná.“

GPT na základe tejto inštrukcie napísal prompt: 

„Photo suitable for a sofa cleaning website. In the scene, a white sofa is depicted, where one side is clean and pristine, while the other is visibly stained, soiled, and faded from wear. The backdrop features an abstract artwork in pink and gray tones on the wall, and a complementing gray rug lies beneath the sofa.“  

Z dvoch poskytnutých výsledkov DALL.E 3 som vybrala presnejší. Ten istý prompt som následne použila aj v Midjourney. Porovnajte výsledky:

06 Gpt Dalle3 Sedacka
Obrázok z DALL.E 3 – škvrna na sedačke je trochu nerealistická.
07 Midjourney Sedacka
Obrázky z Midjourney – ani v jednom neboli inštrukcie pochopené správne, 
fľakatá je skôr stena ako sedačka, na stene nevisí obraz

Animovaný štýl

Pod’me si vygenerovať ilustrácie do detskej knihy. 

Inštrukcia pre GPT: 

„Prosím ťa potrebujem obrázok – ilustráciu do detskej knihy, ilustrácia je akvarelovými farbičkami a vodovými farbami. Na obrázku je malé dieťa uložené v postieľke. Má pásikavé pyžamo, drží v ruke plyšovú žirafu, túli sa k nej, je zakryté obláčikovou prikrývkou. Vedľa v kresle sedí stará mama so sivými vlasmi zopnutými v drdole, na nose má okuliare a číta mu rozprávku z knihy.“

Chat GPT na jej základe vygeneroval tento prompt: 

„Watercolor painting suitable for a kid’s storybook. A cozy bedroom scene where a young child in striped PJs is tucked into bed, hugging a stuffed giraffe toy, beneath a blanket adorned with clouds. By the bedside, an old grandma with her silver hair in a bun and spectacles on her nose, sits in an armchair, engrossed in reading a story from a book to the child.“

Porovnajte výsledky:

08 Gpt Dalle3 Babicka Cita
Obrázky z DALL.E 3 – Na prvom obrázku je správne zobrazená stará mama v kresle, aj keď kreslo, je trošku zvláštne prisunuté pod prikrývku. Na druhom obrázku dieťa objíma žirafu, a stará mama je vedľa neho v posteli.
09 Midjourney Baibicka Cita
Obrázky z Midjourney – Ani jeden obrázok nespĺňa úplne inštrukcie promptu. Na troch obrázkoch chýba stará mama, kreslo, chlapec neobjíma žirafu, na treťom obrázku je postava akoby spojená z nôh dieťaťa a vrchnej časti babičky.

Neplatí, že prompt z jedného nástroja rovnako dobre funguje aj v inom nástroji. Preto som trochu spresnila prompt pre Midjourney, znova v očakávaní lepšieho výsledku: 

„Watercolor painting for a kid’s storybook. A cozy bedroom scene where a young child in striped PJs is laying in the bed, child is covered with a cloudy pattern blanket, child is hugging a stuffed giraffe toy. Next to bed is grandma, grandma is sitting in a chair, grandma has silver hair in a bun and glasses, she is reading a book to the child. –ar 9:6“

10 Midjourney Babicka Cita
Obrázkok z Midjourney – inštrukcie promptu nie sú úplne presne splnené, 
ilustrácia je však pekná a použiteľná, čo myslíte?

Umelecké štýly – náčrt kriedou

Midjourney vo veľkom využívam na obrázky v rôznych umeleckých štýloch pre moje hand made tvorenia. Vyskúšala som oba nástroje z kresby kriedou.

Popis pre Chat GPT znel takto:

„Náčrt postavy anjela oranžovou kriedou na modrom papieri, je to náčrt historického maliara pre fresku v kostole – anjelik je v barokovom štýle, s fluffy telom a kučeravými vlasmi, má krídla a drží husle.“

DALL.E 3 ma zase prekvapil! Jednak dokonale vystihnutou kriedovou kresbou, avšak aj správnym pochopením hry na husle. Midjourney často nerozumie kontextu, ako sa rôzne nástroje používajú. Veď porovnajte:

11 Chat Gpt Dalle3 Anjel Baroko
Obrázky z DALL.E 3

Prompt od Chat GPT som použila následne aj v Midjourney:

„Sketch of an angelic figure drawn with orange chalk on blue paper. The drawing is reminiscent of a design by a historical painter for a fresco in a church. The angel is depicted in a Baroque style, with a fluffy body, curly hair, wings, and holding a violin.“

12 Midjourney Anjel Baroko
Obrázky z Midjourney – všimnite si deformované husle a neexistujúci či nevedno-čo-robiaci sláčik. 
Na obrázkoch je preto podľa mňa zjavné, že sú tvorené pomocou AI.

Zahrnutie textu/nápisu do obrázka

Najskôr som vyskúšala vytvoriť kreslený vtip so slovenskými textami v bublinách, následne s anglickými textami.

DALL.E 3 si poradil so slovenskou diakritikou len čiastočne, anglický text bol v jednom prípade bezchybný, v druhom prípade s maličkou chybou:

13 Gpt Dalle3 Sliepky
Obrázky z DALL.E 3 – Kreslený vtip so slovenskými textami.
14 Gpt Dalle3 Sliepky
Obrázky z DALL.E 3 – Kreslený vtip s anglickými textami.

Midjourney sa texty zatiaľ vôbec nedaria, použila som prompty, ktoré na základe môjho popisu pripravil Chat GPT pre DALL.E 3:

„Illustration of two chickens strolling down a countryside road. As they talk to each other, a looming truck is seen coming their way from behind. One of the alarmed chickens exclaims ‚Pozor náklaďááák!‘ in a speech bubble.“

15 Midjourney Sliepky
Obrázky z Midjourney – Kreslený vtip so slovenskými textami. Kontext vtipu bol pochopený len v druhom obrázku, kde je skutočne „náklaďák“ smerujúci ku sliepkam. Texty sa nevydarili.

Druhý prompt:

„Illustration of a scene where an ordinary hen and an Oracle hen sit facing each other at a table draped with a white tablecloth. The central focus is a glowing crystal ball which shows a KFC bucket filled with fried chicken. The ordinary hen, looking worried, asks in a speech bubble, ‚Will I complete my bucket list?‘. The Oracle hen, with a wise demeanor, replies, ‚Not yours, but someone’s.‘ „

16 Midjourney Sliepky
Obrázky z Midjourney – Kreslený vtip s anglickými textami.
Kontext vtipu bol pochopený, avšak chýba pointa vtipu – KFC vedierko. Texty sa nevydarili.

Prišli ste porovnaním obrázkov k rovnakému záveru ako ja? DALL.E 3 oveľa presnejšie ako Midjourney plní inštrukcie. Chápe kontext zadania a vygenerovaný obrázok obsahuje detaily, ktoré ste popísali. Midjourney si s niektorými detailami zatiaľ nevie rady.

Rozpoznávanie obrázkov pomocou Chat GPT

V druhej polovici septembra 2023 Open AI ohlásila aj postupné sprístupňovanie novej funkcionality Chat GPT:

  • Hlasové ovládanie a hlasové výstupy v mobilnej aplikácii Chat GPT.
  • Možnosť rozpoznávať obrázky.

Open AI to poeticky nazvala ako schopnosť GPT počuť, vidieť aj hovoriť. Funkcionalita bola postupne sprístupnená platiacim používateľom. 

Otestovala som, hlavne funkcionalitu na rozpoznávanie obrázkov, pretože sa môže zdať výhodné použiť ju aj pri generovaní obrázkov:

  1. Nájdete si obrázok na internete a necháte Chat GPT, aby si ho „prezrel“ a aby vám ho popísal. 
  2. Popis môžete použiť na vygenerovanie pdobného obrázka, cez beta verziu Chat GPT s integrovaným DALL.E 3.

Vyskúšala som najrôznejšie chytáky. Kde som Chat GPT nachytala na hruškách?

  • Obrázok, v ktorom bolo zrkadlové písmo v slovenčine (v angličtine boli odčítané aj zrkadlovo napísané slová správne).
  • Obrázky byliniek a ich použitie.
  • Zápalkové hlavolamy – správne zrátané počty zápaliek, ale logika za nimi nepochopená.
  • Čivava alebo cookies? Niektoré očká a čučoriedky nerozoznal GPT správne.
  • Známa detská knižka „Kde je Waldo?“ – aj pre GPT je ťažké Walda v mase ľudí nájsť.
  • Stereogram.

Najkreatívnejšie použitie mi opísal kolega: Nie je programátor a robil stránku v Bootstrape, nevedel si sam poradiť s naštýlovaním komplikovanejšej tabuľky. Keď nahodil kód, ktorý mu poradil Chat GPT, tak stále nebol s výsledkom spokojný. Vložil obrázok s výstrižkom obrazovky a popísal chybu. Na základe toho Chat GPT navrhol opravu v kóde a tabuľka sa zobrazila ako mala. 

Rovnakú funkcionalitu má aj Midjourney – namiesto čarovného slovka „/imagine“ zadáte „/describe“ a dostanete 4 popisy uploadnutého obrázka. Niektoré z popisov sedia, niektoré sú menej presné. Táto črta je veľmi často využívaná tvorcami obrázkov – uploadnú obrázok a vygenerovaný popis použijú ako prompt.

18 Midjourney Rozpoznanie Obrazka Describe
Obrázok z Midjourney – rozpoznanie obrázka pomocou príkazu „/describe“

Zhrnutie a záver

Pokrok v generovaní obrázkov pomocou AI je nepopierateľný, nové funkcionality pribúdajú rýchlym tempom vo všetkých aplikáciách.

Midjourney (podľa môjho subjektívneho vkusu) o trošičku lepšie zvláda fotorealistické obrázky. Dievčatá a ženy z Midjourney sú prirodzenejšie ako z DALL.E, kde majú nábeh na umelý „duck face“ – veľké oči, veľké pery.

Avšak Mdjourney zďaleka nedokáže tak presne splniť inštrukcie ako DALL.E 3!

DALL.E 3 lepšie rozumie kontextu. DALL.E 3 vo výsledných obrázkoch väčšinou má zakomponovanú každú informáciu uvedenú v prompte, Midjourney nie. V tomto zmysle naozaj DALL.E 3 šliape Midjourney na päty, ba v pretekoch ju prešprintoval. Keď zlepší grafické prevedenie obrázkov, tak sa máme na čo tešiť!

Máte chuť a možnosť vyskúšať si oba nástroje? Ktorý je váš osobný víťaz a prečo? Podeľte sa s nami so svojimi skúsenosťami v komentároch.

5/5 - (1 vote)

WooCommerce pluginy pro české a slovenské prostředí

Similar Posts

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *

Táto webová stránka používa Akismet na redukciu spamu. Získajte viac informácií o tom, ako sú vaše údaje z komentárov spracovávané.