Viccnek indult. „Mi lenne, ha létrehoznék egy podcastot, ahol mesterséges intelligens robotokkal beszélgetek, és úgy teszek, mintha érdekelne, amit mondanak?” – kérdeztem egy barátomat.
Ez néhány hónappal ezelőtt történt, mielőtt rájöttem, hogy a Google-nak van egy mesterséges intelligencia-eszköze NotebookLM amely (többnyire) lehetővé teszi, hogy valós időben társalogjon két emberi hangú házigazdával. Az interaktív módként ismert, megteheti csatlakozzon a podcasthoz, és bármikor kérdezzen. A robotok megállnak, és „hallgatóként” ismernek fel, majd kommentálják a mondanivalóját.
Úgy döntöttem, hogy kipróbálom a NotebookLM-et, hogy valódi podcastot készítsek, elindítom a Spotify for Creators-on keresztül, majd népszerűsítem a közösségi média csatornáimon. Sokat tanultam a folyamat során, de a végeredmény elég sokat elárult arról, hogy mi kell egy podcast elkészítéséhez. Az egyetlen dolog, amit el kell kerülni? Túlságosan robotikus hangzású podcast készítése lélek nélkül. Íme, hogyan csináltam az egészet.
Felvétel interaktív módban Google NotebookLM John Brandon
Először nem vettem észre, de a NotebookLM valójában nem rögzíti a robotgépekkel való interakcióit. Mivel az alkalmazás (elérhető mobileszközökön, de böngészőben is futhat) béta állapotban van, nincs sok nagyszerű dokumentáció vagy útmutatás a használatához. Ahelyett, hogy a NotebookLM-re támaszkodtam volna az interaktív beszélgetés rögzítésére, az iPhone Voice Memos alkalmazást használtam. Bár egy igazi podcaster gúnyolódott az alacsony minőségen, ez gyors és egyszerű volt.
A kezdéshez ki kell választania a vita forrását. Elhatároztam, hogy létrehozom az „Origins with John Brandon”-t, mint egy kissé hangos podcastot arról, hogyan keletkeztek a közönséges dolgok. Az első epizód a buborékfólia létrejöttéről szólt, ezért először találtam több cikket a témában, és feltöltöttem a NotebookLM-be. Ezeket a képzési adatokat használják a „házigazdák”, mivel általában csak egymással beszélnek, de nem akartam, hogy csak úgy elkezdjenek riffelni a témáról. Ehelyett azonnal közbeszóltam, és bemutatkoztam, mint az igazi házigazda.
Elképzelheti, hogy a Google nem pontosan így akarta működni. A robotok meglepődve viselkedtek, és még azt is észrevették, hogy nem én vagyok a házigazda (név szerint megemlítve), és ragaszkodtak ahhoz, hogy ők az igazi emberi házigazdák. Feltettem néhány kérdést a buborékfóliáról, de végül a csevegés az AI-tudatról és a tudatosságról szóló vitába fajult. Úgy éreztem, ez sokkal érdekesebb téma, így a podcastom szatirikusabb ízt kapott, hasonlóan a Hagyma-hoz. Más szóval, bár a buborékfóliáról kellett volna szólni, inkább az MI-ről lett szó.
Boldog voltam az eredménnyel, még akkor is, ha a felvétel minősége nem volt kiemelkedő. Elképzeltem, hogyan működött volna jobban, ha külön digitális felvevővel rögzítem volna az élő beszélgetést, de nem próbáltam podcast díjat nyerni. Az első epizódomat szerettem volna közzétenni, és a NoteBookLM legalábbis lenyűgözött abban, hogy koherens vitát szült. Az is klassz volt, ahogy a robotok valós időben reagáltak a megjegyzésemre.
Az eszközök létrehozása Podcast grafika John Brandon
A podcast természetesen több, mint egy közzétett hangfájl. Ez magában foglalja a podcast művészetet, a bumper zenét, a hangfelvételt és más elemeket is.
Miután megvolt az első epizód felvétele, ráfordultam Google Gemini hogy készítsek egy négyzet alakú csempét, amelyet felhasználhatok a bemutatóhoz. Minden podcast rendelkezik egy csempével, amely segít az embereknek azonosítani a podcastot egy olyan alkalmazásban, mint az Apple Podcasts. A felszólításom egyszerű volt: Hozz létre egy négyzet alakú képet az Origins nevű podcasthoz John Brandonnal. Egy AI-képet is adtam magamról. Az első körben a Gemini egy kivételesen jó csempét készített, olyan, mint valami profi. Nem szerettem, ha a képemet társították hozzá, ezért megkértem a robotot, hogy próbálja újra. Az eredmény kissé sajtosnak tűnt, de elfogadható.
Elmentem a versenyekre. Legközelebb a Suno segítségével készítettem el az új podcastomhoz a bump zenét. Ez a mesterséges intelligencia hanggeneráló eszköz általában a következő utasításokat használja: Készítsen új dalt, amely úgy szól, mint a Coldplay és a Nirvana keverve. Ehelyett inkább arra irányult, hogy podcast bumper zenét kérjek szintetizátorokkal és dobokkal, hogy némi energiát és izgalmat adjunk hozzá, mielőtt elkezdenénk beszélgetni.
Hasonlóan az első próbálkozásomhoz a Geminivel, Suno olyan lökhárító zenét adott elő, amely azonnal tökéletesen hangzott. Nem kellett több promptot próbálnom, de szerettem volna finomhangolni az intrót egy szinkronhanggal. A Speechify-hoz fordultam, amely képes bármilyen szöveget fogadni, és hangfelvételt készíteni. Ezután a ChatGPT-t használtam, hogy összekapcsoljam a buffer zenét és a hangot átfedésként. Teljes nyilvánosságra hozatal, nem tudtam ChatGPT lehetővé teszi audio fájlok készítését.
Perceken belül bevezető zenét kaptam, mint egy hangot. Még a zenei bevezető és a szinkronhang kezdete közötti áthallást is beállítottam, majd elhalványítottam. Megkértem a ChatGPT-t, hogy adja hozzá a podcast hangját az első epizódhoz, és egy végső hangfájlt generált, amelyet feltöltöttem a Spotify-ra.
Egy dolog, amit érdemes elkerülni a Spotify for Creators John Brandon számára
én voltam lenyűgözött az eredmények és az, hogy mindez hogyan jött összede azt mondanám, hogy túlzottan támaszkodtam a mesterséges intelligenciára az új podcastomnál. A csempe kissé hamisnak és lélektelennek tűnt, főleg mivel az általam használt csempeképet mesterséges intelligencia generálta. Maga a NotebookLM hanganyagban van némi emberiesség és lélek, főleg azért, mert a botokkal beszélek, de az epizód végül úgy hangzott, mintha egy ember beszélgetne a chatbotokkal, ami a katasztrófa receptje. Az emberek azért hallgatnak podcastokat, hogy valami újat tanuljanak, de azért is, mert a beszélgető emberek rokoníthatóak, érdekesek és valódiak. Engem legalábbis ez motivált egy igazi podcast készítésére, anélkül, hogy botok érintettek volna ugyanabban a témában.
A fő leckém a NotebookLM-hez kapcsolódott. Ez egy jó kísérleti eszköz, és segített kitalálni, hogyan kell podcastot készíteni és elindítani. Ez azonban nem más, mint egy laboratóriumi kísérlet. A „házigazdák” újra és újra ismételgetik ugyanazt a hangzást, különösen, ha én is csatlakoznék a beszélgetésükhöz. Miután néhányszor hallotta, hogy „ó, van egy hallgatónk, aki hozzá szeretne szólni”, gyanakodni kezd, hogy mindez egy számítógép által generált álság. Újra és újra ugyanazokat a hangjelzéseket és furcsa hangzási modorokat használják, egészen addig a pontig, hogy az szinte hallgathatatlan és bosszantó.
Egyszóval unalmas. A podcastot nem szeretném online tartani, és leginkább arról árulkodik, hogy ha a botok így beszélnek egymással, az nem fogja lekötni senki figyelmét. Majdnem olyan, mintha két számítógépet néznénk, amint egy videojátékot játszanak. Az egyetlen dolog, amit minden podcastnál el kell kerülni, hogy annyira támaszkodjon a mesterséges intelligenciára, hogy az az egész emberiséget eltávolítja az egyenletből.
A mesterséges intelligencia fejlődése során el kell döntenünk, hogy ez nem jó eredmény-e.









