Inteligența artificială generativă este o revoluție încă în desfășurare. Capacitatea sa de a crea texte, imagini, înregistrări audio și video care să disimuleze creația umană continuă să capteze atenția și imaginația întregului Internet. De-aici și până la investiții de miliarde de dolari din partea giganților tehnologici pentru domesticirea și cercetarea AI mai este un singur pas.
Într-un raport publicat în iunie 2023, compania McKinsey estima un potențial de câștig între 6,1 și 7.9 trilioane de dolari pentru economia globală pe baza inteligenței artificiale generative (generative AI). De unde acești bani? Prin susținerea productivității pe care o generează această relativ nouă formă de inteligență artificială. În acest articol ne propunem să explorăm cum funcționează AI generativă, să vedem potențialul modelelor AI existente în prezent și să înțelegem cum schimbă inteligența artificială industria creativă.
Ce este inteligența artificială generativă? Definiție.
AI generativă este în fapt un subset al inteligenței artificială care poate produce diferite tipuri de conținut. Vorbim aici de text, imagini, audio, video sau date sintetice. Această tehnologie combină puterea învățării automate cu învățarea profundă și inteligența artificială pentru a produce astfel de rezultate.
Viralul ChatGPT este și primul dintre exemplele care vin în minte când vorbim de generative AI. Însă avansul modelelor lingvistice mari (LLM) a marcat începutul unei ere în care putem crea texte captivante, imagini fotorealistice sau clipuri creative cu doar câteva clicuri. În același timp, gen AI a susținut și notorietatea deep fake-urilor, aceste videoclipuri și imagini fals realiste, folosite în cele mai multe cazuri cu rea intenție sau scop manipulativ.
Cum funcționează inteligența artificială generativă?
Deși devenite notorii recent, modelele AI nu sunt o noutate. Software-ul AI este folosit de ani de zile în experiența companiilor cu utilizatorii lor. Întregul model de motor de căutare al Google este alimentat de inteligența artificială. La fel și în cazul a zeci de servicii, cum ar fi Google Assistant, care analizează vorbirea umană în timp real și oferă cel mai potrivit răspuns.
Chiar și Gemini, răspunsul Google la ChatGPT, Copilot – de la Microsoft – sau alte modele AI generative, toate sunt rezultatul a ani și ani de muncă. Tehnologiile AI generative pot părea noi, însă adevărata noutate constă în modul în acum care le abordăm.
Chiar dacă construirea și antrenarea rețelelor neuronale pentru sarcini specifice s-a făcut în mare parte folosind antrenament supravegheat de oameni, abia când am permis inteligenței artificiale să se antreneze reciproc, am început să obținem rezultate cu adevărat spectaculoase. Ceea ce a și marcat începutul erei AI generative.
Cele mai comune două metode de antrenament pentru rețelele neuronale generative sunt:
GAN-uri – generative adversarial networks
Pe scurt, GAN-urile constau în două rețele neuronale: una concepută pentru a o păcăli pe cealaltă. Imaginați-vă un joc în care un oponent talentat creează o replică a unui tablou cunoscut.
Aceasta este în fapt și treaba generatorului. Să genereze imagini complet noi, imposibil de distins de cele reale. Cealaltă rețea, numită discriminator, este instruită să identifice dacă setul de date este autentic sau un produs născocit de generator.
Generatorul este recompensat de fiecare dată când reuşeşte să înşele ochiul discriminatorului. Dar și discriminatorul devine, prin exercițiu, din ce în ce mai bun. În timp, își perfecționează capacitatea de a găsi până și cele mai mici discrepanțe sau greșeli. Devine astfel capabil să deosebească conținut generat de oameni de ecranul de fum creat de generator.
Cu un antrenor atât de priceput, generatorul devine un maestru în crearea de imagini. Practic, cel mai bun falsificator imaginabil. În acest fel, perechea de rețele creează un model AI generativ care poate provoca direct creativitatea umană.
Prin stivuirea a două GAN-uri împreună (StackGAN), oamenii de știință au reușit să antreneze primele rețele neuronale care să creeze imagini după descrieri text. Iar cu cât au exersat mai multe seturi de date, cu atât au devenit mai capabile. Așa s-au născut aplicații AI precum DALL-E, Stable Diffusion și Midjourney.
GPT-uri (generative pre-trained transformers)
Asemănarea cu ChatGPT nu este întâmplătoare. A fost scânteia care a dus la crearea aplicației care ulterior a depășit toate celelalte aplicații în popularitate. A depășit pragul de un milion de utilizatori în doar cinci zile. Atât. Cinci zile.
Practic, un transformator este un tip de rețele neuronale recurente care pot afla contextul datelor secvențiale. Nu se bazează doar pe statistici pentru a-și da seama ce cuvânt ar putea urma. Transformatorii analizează de fapt relațiile dintre cuvinte, de la cel mai mic bit de informație la un context mai larg.
Prezentată pentru prima dată într-o lucrare academică din 2017 („Attention is all you need”, Vaswani și colab., 2017), arhitectura acestuia transformă propozițiile de intrare în propoziții de ieșire folosind un mecanism numit „self-attention” (nr. trad. auto-atenție).
Auto-atenția este modul în care ne imaginăm un extraterestru super-inteligent învățând una dintre limbile noastre. Facem acest lucru dându-ne seama cum se leagă cuvintele între ele într-o propoziție.
Obiectivul principal din spatele formării GPT-urilor a fost acela de a crea algoritmi de traduceri de încredere. În puțin timp, a devenit clar că ar putea folosi același set de abilități pentru a:
- recunoaște vorbirea,
- rezuma bucăți de text,
- genera texte noi,
- răspunde la întrebări (din ce în ce mai complexe),
- crea cod (la urma urmei, codul nu este altceva decât un limbaj artificial).
Pe scurt, la acest tip de inteligență artificială ne referim drept modele lingvistice mari (LLM). Despre ele însă vom vorbi în detaliu mai târziu.
Cele mai cunoscute instrumente AI generative
După cum am spus anterior, putem distinge mai multe tipuri de modele AI generative disponibile în prezent.
Instrumente de generare imagini
DALL-E, Midjourney și Stable Diffusion sunt cele mai cunoscute aplicații în acest moment. Acestea creează imagini pornind de la descrieri text (numite prompturi). Solicitările pot include obiectele pe care le dorim incluse, indicații precum stilul dorit, o paletă de culori, saturația și multe alte direcții de stil. Noi funcții sunt adăugate acestor aplicații cu fiecare nouă actualizare.
Totuși, arta generată de inteligența artificială este înconjurată de controverse. Lucrările mai multor artiști au fost folosite ca date de antrenament în aceste modele, fără ca aceștia să primească recunoaștere.
Instrumente de generare videoclipuri
Aceasta este cumva și cea mai nouă nișă AI generativă. Aici există numeroase aplicații dedicate creării de conținut video care pot crește producția și valoarea fără să necesite proporțional la fel de mult timp. În această categorie, numărăm în prezent editori video care folosesc instrumente AI doar pentru editare, aplicații care generează conținut video din prompt-uri sau instrumente care, cu ajutorul AI, vă ajută să creați concomitent conținut pentru multiple canale sau platforme de marketing.
Instrumente de generare text
ChatGPT a fost primul LLM (large language model), ajungând la un milion de utilizatori în mai puțin de o săptămână. Google și Microsoft (precum și alți giganți tech) încearcă în prezent să-și creeze o nișă, integrând sistemele AI generative (Gemini și Copilot) în motoarele lor de căutare. Mult mai multe modele AI generative sunt în lucru, cu posibilitatea să vedem o mulțime de nume noi pe piață.Totuși, aceste modele au parte de multă atenție în prezent. Ele înlocuiesc deja operatori umani și ar putea cauza o adevărată revoluție în lumea afacerilor. Companiile din întreaga lume implementează deja modele AI generative cu care să câștige un avantaj. Potrivit Goldman Sachs, inteligența artificială generativă poate crește PIB-ul global cu 7 procente.
Modele Google AI generative
Google continuă să lucreze la o suită de modele AI generative ce se extinde rapid în cadrul platformei Google Cloud. Disponibile în secțiunea Vertex AI a consolei cloud, modelele de transformatoare generative pre-antrenate pot genera text într-o varietate de parametri.
Modelele lingvistice mari (LLM)
Pe de-o parte, avem modelele generative destinate căutării zilnice, rezumatelor, traducerilor și scrierii de texte. Aici intră Gemini sau ChatGPT. Pe de altă parte, avem Vertex AI LLM care nu se bazează doar pe un model simplu: ci servește un răspuns prompt, în care utilizatorul are o foarte mică influență asupra modului în care modelul generează răspunsul. În schimb, acesta oferă utilizatorului o suită de instrumente cu care poate ajusta fin rezultatele dorite.
Mai jos, ne vom concentra asupra LLM-urilor generative disponibile în Google Cloud.
Proiectare promptă (prompt design) cu Vertex AI
Fiecare utilizator de AI generativ trebuie să înțeleagă că prompt-urile care să aducă rezultatele dorite sunt o artă în sine. Puteți porni de la o singură propoziție și să vă așteptați ca modelul lingvistic să vă servească un răspuns adecvat. Sau îl puteți ghida pentru a ajunge mai repede acolo. LLM-urile Vertex AI sunt concepute pentru a oferi utilizatorului o putere cât mai mare asupra modelului, fără a fi necesară experiența în programare.
Prompt-uri zero-shot
Cea mai simplă variantă, un singur prompt și fără editări suplimentare. Le puteți folosi pentru a crea un răspuns rapid, de ex. generați un scurt rezumat al unui raport, simplificați un limbaj tehnic sau științific etc. În timp ce această funcție este întregul scop al multor LLM-uri, pentru Vertex AI LLM de la Google este doar punctul de plecare.
Prompt-uri în mai mulți pași
Puteți de altfel „învăța” modelul să furnizeze conținut adecvat scopurilor voastre în loc de a oferi un răspuns general. În acest scop, puteți utiliza un șablon structurat de creare a prompturilor. Este suficient să specificați cuvintele pe care modelul trebuie să le includă, cât și cele pe care trebuie să le omită. Pentru și mai multă precizie, indicați modelului pe ce subiecte să se concentreze și pe care să le omită în rezultatele sale.
Antrenament prin exemplificare
De asemenea, puteți oferi modelului mai multe exemple de răspuns scontat. Această abordare este eficientă în obținerea de rezultate cât mai apropiate de scopul dorit.
Experimentați cu parametrii modelului
Puteți merge și mai departe și să îi spuneți modelului ce tip de răspuns așteptați. Vă puteți juca cu parametrii pentru a obține orice rezultat între răspunsul cel mai probabil și răspunsul cel mai surprinzător, „original”.
Care sunt limitările AI generative?
Totuși, inteligența artificială generativă nu este doar lapte și miere. Având în vedere că aceste modele prezic mereu doar următorul cuvânt, actuala serie de instrumente AI încă necesită supervizare umană. Companiile care decid să adopte astfel de instrumente trebuie să gestioneze cu grijă departamente precum:
- Supravegherea și dubla verificare umană: Modelele generative AI pot introduce informații false sub un ton autoritar și de expertiză încât chiar și specialiștii ajung să fie păcăliți de acestea. În mod similar, rezultatele lor pot conține un limbaj tendențios, deprins din setul de date pe care a fost antrenat modelul. Operatorii umani rămân o parte esențială a fluxului de lucru cu astfel de instrumente.
- Putere de calcul și investițiile de început: Modelele de inteligență artificială generativă necesită cantități masive de putere de calcul. În același timp, cele mai multe companii nu dispun de astfel de resurse sau expertiză pentru a construi și întreține aceste sisteme pe cont propriu. Aici intervine puterea cloud, pentru dezvoltarea inteligenței artificiale generative.
- Reziliența angajaților și clienților la schimbări: Adoptarea AI generative s-ar putea să nu decurgă atât de ușor, lucru care ar putea duce la o scădere a productivității în compania dvs. În mod similar, este posibil ca personalul să refuze adoptarea tehnologiei de teama de a-și pierde locul de muncă. O astfel de adoptare de instrumente AI trebuie făcută treptat și completă transparență de către managerii și conducătorii din companie.