Subiectul inteligenței artificiale se strecoară tot mai des în știri și atenția media, în principal datorită ChatGPT și DALL-E. În timp ce AI bazată pe limbaj stârnește numeroase emoții și controverse, nu putem ignora impactul inteligenței artificiale în recunoașterea imaginilor. Iar unul dintre pionierii din acest domeniu este Google și Vision AI.
Viziunea computerizată rămâne un subiect foarte popular în industria tehnologiei, iar principalul său impact asupra afacerilor este atribuit în primul rând recunoașterii imaginilor și a înregistrărilor video. Această tehnologie, cunoscută sub numele de recunoaștere a imaginilor, are capacitatea de a identifica diverse elemente, cum ar fi locuri, oameni, clădiri și obiecte din imagini și videoclipuri digitale. Prin detectarea și analizarea acestor obiecte, companiile pot introduce automatizarea în anumite sarcini. Aici intră în joc API-ul Google Cloud Vision, subiectul articolului care urmează.
Ce este Vision AI?
Vision AI este o soluție bazată pe inteligență artificială care folosește algoritmi de învățare automată pentru a analiza și înțelege conținutul vizual la o scară fără precedent. Cu capacitatea de a procesa cantități mari de imagini și videoclipuri, Vision AI oferă companiilor oportunitatea de a aprofunda informații, de a îmbunătăți procesul decizional și de a susține inovația în diverse industrii.
Vision AI oferă mai multe servicii cheie Google Cloud care îmbină capabilități de învățare automată (Vertex AI Vision) cu recunoașterea și căutarea imaginilor (Vision API, AutoML Vision). Să ne concentrăm pe ultimele două deocamdată.
Aprofundați lectura Vertex AI:
AutoML Vision
Această soluție vă permite să antrenați modele de învățare automată pentru a clasifica imaginile în funcție de mii de etichete predefinite. Cu AutoML Vision, puteți antrena modele pe baza imaginilor etichetate și puteți evalua acuratețea etichetelor atribuite.
Scopul final este de acela de a crea registre de modele antrenate care pot fi accesate prin interfața AutoML API.
Una dintre cele mai cunoscute aplicații ale AutoML Vision este analizarea inteligentă a imaginilor în cazul înregistrărilor de securitate.
Aplicații practice ale AutoML Vision – inspecții la turbinele eoliene
AutoML Vision este un instrument care permite companiilor să economisească timp și bani. Un astfel de exemplu este AES, un distribuitor de energie regenerabilă care operează în 15 țări. AES deține opt parcuri eoliene, fiecare echipat cu de la 50 și până la 300 de turbine.
Aceste dispozitive necesită inspecții tehnice regulate. Inspecțiile tradiționale se pot întinde chiar până la două săptămâni pentru fiecare parc eolian. AES a decis să externalizeze inspecțiile către o companie specializată care folosește drone. A redus astfel timpul acestor inspecții la doar două zile.
În timpul unui audit sunt realizate până la 30.000 de fotografii. Acestea trebuie apoi monitorizate pentru a verifica eventualele fisuri pe suprafața turbinelor eoliene. Înainte de a utiliza modelele AutoML Vision, întreaga sarcină a verificării a revenit inginerilor calificați. Aceștia aveau nevoie de chiar și patru săptămâni pentru a revizui imaginile. Prin antrenarea unui model, serviciul Google Cloud le-a permis să reducă acel timp la jumătate, lăsând doar 15.000 de fotografii pentru aprobarea manuală.
Cum funcționează AutoML Vision?
Fluxul de lucru în AutoML Vision constă în șase etape:
- Pregătirea datelor.
- Crearea unui set de date și importarea imaginilor.
- Antrenarea modelului.
- Evaluarea modelului.
- Obținerea de previziuni.
- Interpretarea rezultatelor.
AutoML Vision lucrează cu patru tipuri de date: imagini, videoclipuri, text și date tabulare. Acestea se numără printre soluțiile ready-made. Dar dacă niciunul dintre acestea nu îndeplinește cerințele proiectului dvs., puteți crea un model propriu, adaptat pentru antrenarea modelelor personalizate în Vertex AI. Puteți configura resursele de calcul după cum este necesar pentru instruirea ML, inclusiv tipul și numărul de mașini virtuale, GPU-uri sau TPU-uri.
API-ul Cloud Vision
API-ul Google Cloud Vision oferă acces la modele avansate de învățare automată pre-instruite prin interfețele REST API și RPC API. Cu API-ul Vision, puteți eticheta imaginile și le puteți clasifica rapid în milioane de categorii predefinite. Oferă o gamă largă de capabilități, inclusiv detectarea obiectelor, recunoașterea textului (atât dactilografiat, cât și scris de mână) și generarea de metadate de imagine.
API-ul Cloud Vision vă permite să lansați în doar câteva minute aplicații pentru analiza imaginilor și video. De asemenea, permite formarea modelelor de învățare automată pentru a clasifica imaginile folosind atât AutoML Vision, cât și modele personalizate. Merită remarcată integrarea ușoară a API-ului Cloud Vision cu BigQuery și Cloud Functions, extinzând astfel sfera de funcționalitate a serviciului.
Cu API-ul Cloud Vision, puteți efectua o varietate de sarcini legate de analiza imaginilor, printre ele și:
- Clasificarea imaginilor: API-ul poate clasifica imaginile în mii de categorii predefinite, permițând companiilor să eticheteze și să organizeze automat conținutul vizual pe baza conținutului acestuia.
- Detectarea obiectelor: API-ul Cloud Vision poate identifica și localiza mai multe obiecte într-o imagine, oferind coordonate și etichete pentru fiecare obiect detectat. Acest lucru poate avea aplicații în domenii precum inventariat, moderarea conținutului și căutarea vizuală.
- Detectarea și recunoașterea fețelor: API-ul poate detecta fețe din imagini și poate oferi repere faciale, cum ar fi poziționarea ochilor, a nasului și a gurii. În plus, companiile pot folosi capacitățile de recunoaștere facială pentru a identifica chipuri din imagini și chiar pentru a urmări emoțiile utilizatorilor.
- Recunoaștere optică a caracterelor (OCR): API-ul Cloud Vision poate extrage text din imagini, pentru procesare ulterioară. Această funcționalitate este valoroasă pentru aplicații precum digitizarea documentelor, extragerea datelor din imagini și analiza automată a textului.
- Informații despre imagine: API-ul poate oferi informații despre proprietățile imaginii, cum ar fi culorile dominante, orientarea imaginii și prezența conținutului explicit. Acest lucru permite companiilor să automatizeze moderarea conținutului și să asigure conformitatea cu diferitele reguli și reglementări.
Puterea combinată a API-ul Vision cu AutoML Vision
Pentru a valorifica și mai mult puterea învățării automate și a inteligenței artificiale, o soluție este combinarea celor două servicii. Diagrama de mai jos ilustrează un model utilizat în mod obișnuit.
În primul pas, utilizatorul încarcă imagini, stocate apoi în Cloud Storage. De fiecare dată când este adăugată o nouă imagine, o notificare este trimisă către App Engine prin Pub/Sub. În pasul următor, App Engine activează API-ul de învățare automată, lansând două soluții posibile.
Citiți și:
În prima soluție, API-ul Vision efectuează o recunoaștere aproximativă a obiectelor și scenelor din fotografii. Recunoașterea etichetelor este utilă, permițând căutarea ulterioară a anumitor elemente din imagini.
În a doua souție, AutoML Vision recunoaște etichetele personalizate pe baza modelelor pre-antrenate.
În ambele cazuri, rezultatele sunt trimise înapoi la App Engine, iar utilizatorul poate găsi acum imaginea dorită pe baza cuvintelor cheie.
Beneficiile Vision AI în Google Cloud
Știm deja că modelele de instruire pentru recunoașterea imaginilor vă salvează timp și vă ajută să faceți economii semnificative de costuri. De asemenea, va influența calitatea deciziilor de afaceri. Având acces la date complete, puteți lua decizii asumate în loc să vă bazați pe exemple reprezentative estimative. Modelele sunt îmbunătățite continuu și pot analiza nu numai obiecte specifice, ci și emoții și expresii faciale.
Datorită instrumentelor Vision AI pentru extragerea textului (OCR) din imagini, putem crea și căuta mai rapid seturi de date. Acest lucru este valoros atât pentru arhivare, cât și pentru organizarea conținutului.
Cum să utilizați AutoML Vision și Vision API în practică?
Pentru a valorifica și mai mult potențialul instrumentelor Google Vision AI, solicitați asistență de la un partener Google precum FOTC România. O simplă discuție cu un arhitect cloud certificat vă poate ajuta să decideți dacă un anumit instrument este potrivit pentru afacerea sau aplicația dvs. Descoperiți care sunt costurile pentru a adopta un astfel de serviciu și modalități de optimizare a acestora alături de FOTC.