Az OpenAI és a ChatGPT legújabb fejlesztései egy valóra vált rémálomként is felfoghatók. Az innovációk gyors üteme és a mesterséges intelligencia egyre szélesebb körű alkalmazása számos kérdést vet fel, amelyek sokakban aggodalmat ébresztenek. Az új lehet

Új szél fúj a mesterséges intelligencia világában: az OpenAI néhány nappal ezelőtt bejelentette legújabb képalkotó modelljét, amit közvetlenül a ChatGPT platformba integráltak, ezzel egy új korszakot nyitva a vizuális tartalomgenerálásban. A korábbi DALL-E 3 integrációt felváltó GPT-4o nem csupán egy egyszerű frissítés, hanem egy jelentős technológiai ugrás, amely multimodalitásával és a szövegrenderelés terén nyújtott kiemelkedő teljesítményével új távlatokat nyit meg a felhasználók előtt. Sokak szerint viszont az OpenAI ezzel a lépésével már átesett annak a bizonyos lónak a túloldalára.
A ChatGPT mostantól forradalmi lépést tett a képgenerálás terén, lehetővé téve a sokkal részletesebb, pontosabb és élethűbb képek létrehozását, amely eddig csupán álomnak tűnt. Az új, március 25-én bevezetett képgeneráló alrendszer célja világos: a korábbi DALL-E 3 rendszert felülmúlva, megbízhatóbb és következetesebb eredmények garantálása. A GPT-4o ereje abban rejlik, hogy akár húsz különböző objektumot is képes egyszerre kezelni, miközben megőrzi azok közötti bonyolult kapcsolati hálót, így ideális választás összetett jelenetek megalkotásához. Ráadásul kontextuális tudatossága lehetővé teszi, hogy a már korábban készült képekre és a csevegés szövegére építve alkosson, így biztosítva a végeredmény harmonikus összhangját.
Érdekes megfigyelni, hogy a rendszer rendkívül sokrétű testreszabási lehetőségeket kínál. Képesek vagyunk finomhangolni a képarányokat, precízen megadni a színeket hexakódok segítségével, sőt, akár átlátszó hátteret is létrehozni. A GPT-4o segítségével nemcsak szöveges leírás alapján alkothatunk képeket, hanem már meglévő képeinket is átalakíthatjuk. Talán a leglenyűgözőbb aspektus azonban az, hogy a mesterséges intelligencia képes a rajzolt vázlatokból valósághű képeket vagy videókat generálni. Az alábbiakban erre egy érdekes példát mutatunk be:
Mégsem ez lett az új mesterséges intelligencia legnépszerűbb felhasználási módja. Ha jelen van az X-hez, Facebookhoz, Instagramhoz és Reddithez hasonló közösségi oldalakon, az elmúlt napokban biztosan találkozott már ön is a Studio Ghibli ikonikus animációs stílusát utánzó, mesterséges intelligencia alkotta képekkel. A GPT-4o által létrehozott, rajzolt stílusú fotók elképesztő népszerűségre tettek szert - alig egy óra alatt több mint egymillió felhasználó készített új OpenAI-fiókot a trend miatt. Ennek lényege, hogy az MI meglévő fotóiból olyan alkotásokat kreál, mintha azokat maga Mijazaki Hajao álmodta volna meg.
Öröm az ürömben, hogy míg az MI-generált Ghibli-stílusú képek tarolnak a közösségi médiában, addig a Studio Ghibli maga élesen elhatárolódik a mesterséges intelligencia alkalmazásától a művészetben, így számukra ez most a valóra vált rémálom. A helyzetet csak tovább fokozza, hogy a stúdió legendás társalapítója, Mijazaki már 2016-ban "visszataszítónak" és "az élet megrontójának" nevezte a mesterséges intelligencia által generált művészetet, miután bemutattak neki egy MI-vel animált 3D-s modellt. Mijazaki szerint a mesterséges intelligencia nem képes helyettesíteni az emberi alkotásokat, amelyekben érzelmek és egyedi látásmódok rejlenek.
A trend tehát nemcsak a közösségi médiát pörgette fel, hanem egyben felerősítette a vitát is az MI szerepéről a művészetben. Sokan attól tartanak, hogy az MI-generált tartalmak aláássák a hagyományos animációs ipart, miközben mások éppen a technológia adta kreatív lehetőségeket ünneplik. Ezek mellett pedig olyan kérdéseket is felvetettek a Studio Ghibli rajongói, hogy mennyire etikus az egyik legikonikusabb japán filmstúdió művészeti stílusát ilyen szinten másolni.
Mindeközben pedig az OpenAI feje is főhet, a Ghibli-stílusú képgenerálás ugyanis komoly technikai kihívások elé állította a vállalatot. Aam Altman vezérigazgató a napokban azzal viccelődött, hogy szervereik már-már olvadoznak, így korlátozásokat vezettek be a képgenerálások számát illetően. Ennek értelmében az ingyenes felhasználók napi három kép generálására korlátozódnak.
Bár a ChatGPT új képalkotó funkciója izgalmas lehetőségeket kínál, nem mentes a kihívásoktól. A felhasználók tapasztalatai alapján problémák merültek fel a képek bizonyos elemeinek precíz szerkesztésekor, az arcvonások következetes megjelenítésében, valamint olyan feladatoknál, mint a kivágás, az adatok vizuális ábrázolása és a többnyelvű szövegkezelés. Ez valószínűleg hozzájárult ahhoz a döntéshez, hogy a ChatGPT platformon a GPT-4o képalkotó mellett a DALL-E is továbbra is elérhető marad, így a felhasználók az igényeiknek megfelelően válthatnak a két modell között.
Az OpenAI elméletben már aktívan dolgozik a fejlesztéseken, a javítások várhatóan a közeljövőben megvalósulnak. A kérdés már csak az, hogyan viszonyulnak mindehhez a kreatív iparban dolgozók, illetve hogy tovább feszül-e a hangulat a Studio Ghibli és az OpenAI között.