A Google bemutatta legfrissebb szöveges képi modelljét, az Imagen 4-et, és a szokásos ígéretét a “jelentősen továbbfejlesztett szöveg-megjelenítés” az előző verzióhoz képest, az Imagen 3-hoz képest. A vállalat egy új, Imagen 4 Ultra nevű Deluxe verziót is bevezetett, amelynek célja a pontosabb szövegfelvételek követése, ha hajlandó külön fizetni. Mindkettő a Gemini API -ban fizetett előnézetre érkezik, és korlátozott ingyenes tesztelésre kerül a Google AI Studio -ban.
A Google a fő Imagen 4 modellt úgy írja le, hogy “a legtöbb feladathoz vezet”, képenként 0,04 dollár áron. Az Imagen 4 Ultra eközben a “amikor a képeire van szüksége, hogy pontosan kövesse az utasításokat”, az “erős” kimeneti eredmények ígéretével, összehasonlítva más képgenerátorokkal, mint például a Dall-E és a MidJourney. Ez a modell az árat 50 % -kal, 0,06 dollárra növeli képenként.
A társaság számos képen mutatott be, beleértve az Imagen 4 Ultra által generált három paneles képregényt, amely azt mutatja, hogy egy kis űrhajót támadnak meg egy óriási kék … űrtartalmú gyík? Néhány hanghatással, mint például a “Crunch!” És megmagyarázhatatlanul: “volt !!” A kép követte a felsorolt prompt ütemét, és rendben volt, ellentétben a 3D -s alkalmazásból származó Toon megjelenítéssel.
Egy másik kérés: “A Vintage utazási képeslap elülső része Kiotó számára: ikonikus pagoda cseresznyevirágok alatt, hófödte hegyek távolságban, tiszta kék ég, élénk színek”. Az Imagen 4 kimenetet egy “T” -re, bár általános stílusban, hiányozva, nem volt varázsa. Egy másik kép azt mutatta, hogy egy túrázási pár integetett egy szikla tetején, egy másik, egy hamis “Avant Garde” divatfelvétel. A képek határozottan jó minőségűek voltak, és pontosan követték a szöveget, de még mindig nagyon gépesnek tűntek.
Az Imagen 4 rendben van, és enyhe javulásnak tűnik az előzőhez képest, de nem igazán gondolkodom róla-különösen a piacvezetők, a Dall-E 3 és a Midjourney 7. Plus.