Speech-to-Text Google Cloud: Ce este și cum se folosește?

Într-o eră dirijată de transformarea digitală, companii din toate industriile îmbrățișează tehnologii de ultimă oră pentru a fi mereu cu un pas înaintea competiției. Printre aceste concepte inovatoare se numără și tehnologia Speech-to-Text, care a remodelat scena procesării și analizei datelor vocale.

Cu o acuratețe, scalabilitate și multitudine de funcții avansate de neegalat, Google Cloud Speech-to-Text a revoluționat la rândul său modul în care companiile valorifică puterea cuvintelor rostite. De la transcrieri mai fidele ca oricând la servicii vocale care îmbunătățesc experiența clienților, aprofundăm în acest articol capabilitățile remarcabile și beneficiile de impact ale acestui algoritm.

Ce este serviciul Google Cloud Speech-to-Text?

Speech-to-Text, folosit pentru conversia și transcrierea automată din vorbire în text, se numără printre serviciile Google Cloud. Utilizează modele avansate de învățare automată de la Google și facilitează astfel transcrierea în peste 120 de limbi și dialecte.

Serviciul Speech-to-Text este furnizat prin intermediul unui API (interfață de programare a aplicației), lucru care îl face ușor de conectat la orice aplicație deținută deja de organizație. Este astfel un serviciu deja funcțional și care poate fi implementat la un cost relativ scăzut în orice produs.

Cum poate procesa Speech-to-Text vorbirea?

În timp real, pe măsură ce utilizatorul interacționează cu aplicația
Sau efectuând transcrierea discursului direct dintr-un fișier audio sau video.

API-ul Speech-to-Text de la Google poate procesa mai mult de 1 miliard de minute de vorbire pe lună. Include transcrierea tuturor expresiilor și termenilor, chiar și cele de nișă. Convertește, de asemenea, numerele „dictate”, adresele sau datele în transcriere (de exemplu, cincizeci și trei va fi transcris ca 53).

Pentru o aplicație dezvoltată în containere în clustere Kubernetes, serviciul Speech-to-Text poate fi utilizat într-un model on-premise. Serviciul este implementat într-o aplicație ca container, după care poate fi utilizat într-un mediu local. Această soluție va fi la îndemână pentru organizațiile care trebuie să respecte reglementările locale.

Modele de conversie Speech-to-Text în Google Cloud

Serviciul oferă diferite modele de transcriere pentru înregistrări sau surse audio. Aceste modele folosesc rețele neuronale dezvoltate din cantități mari de date multilingve, permițându-le să gestioneze diverse accente, limbi și modele de vorbire cu mare acuratețe. În momentul de față, există patru astfel de modele folosite de Google Cloud:

Recunoașterea automată și implicită a vocii – acest model poate fi folosit pentru a transcrie înregistrări mai lungi care includ vocea unui singur vorbitor. Modelul funcționează cel mai bine pentru înregistrări cu o frecvență de 16 000 Hz sau mai mare,
Recunoașterea automată a vorbirii pentru comenzi și căutări – un model dedicat transcripției de înregistrări scurte, de exemplu, comenzi vocale trimise către aplicații,
Transcriere după fișier video – un model pentru conversia filmărilor video cu mai mulți vorbitori în text. Acceptă înregistrări sau streaming la 16.000 Hz sau mai mare. Acesta este un model premium, iar costul său este mai mare decât al modelelor precedente
Transcrierea apelurilor telefonice – un model conceput pentru a transcrie apelurile efectuate prin telefon. Cel mai bine acceptă înregistrări la 8.000 Hz. Este și acesta un model premium.

Folosindu-se de aceste modele, un anumit serviciu de procesare a vorbirii poate fi mai ușor asociat scopului aplicației. Aceste modele specializate oferă rezultate mai precise și vor converti personalizat conținutul de pe o platformă de streaming față de cel de pe o platformă de suport clienți sau dintr-o aplicație dirijată prin comenzi vocale.

Aplicabilitatea tehnologiei Speech-to-Text

Folosirea Speech-to-Text deschide multe posibilități, iar modelele de transcripție permit ca serviciul să fie utilizat în diverse aplicații. Conversia automată de la vorbire la text poate fi utilizată, de exemplu, în automatizare sau asistență clienți, în aplicații de transcriere video în timp real sau aplicații de comenzi vocală. Iată câteva scenarii în care dactilografierea automată Speech-to-Text va juca un rol semnificativ.

Servicii de asistență clienți

Speech-to-Text este unul dintre serviciile de bază ale Contact Center AI. Aceasta este o suită Google Cloud pentru crearea de servicii dedicate clienților bazată pe inteligența artificială.

Cu ajutorul Speech-to-Text (și a altor servicii din portofoliul Contact Center AI), este posibilă crearea, printre altele, a unui sistem de suport pentru consultanții care lucrează în call center. Efectuând o transcriere a unei conversații în timp real, analizând dialogul și interpretând intențiile clientului, sistemul oferă agentului implicat materialele necesare și îndrumări pentru a aborda mai departe conversația. Folosind serviciul, este posibilă construirea unui sistem IVR (interactive voice response) – un call center automat operat de vocea clientului, care ajută la rezolvarea problemelor simple și care, în cazul unor probleme mai complexe, redirecționează apelantul către un consultant.

Control vocal

Speech-to-Text vă permite să implementați comenzi vocale pentru a controla aplicația prin vorbire. Acesta are chiar și un model de transcriere dedicat – ASR: Command and search. Prin utilizarea serviciului, aplicația poate răspunde la întrebări sau comenzi vocale. Câteva exemple ar fi, „redați următorul fișier în așteptare”, „mărește volumul” sau „verifică cum va fi vremea sâmbătă”.

Transcrierea fișierelor media

Speech-to-text vă permite să generați subtitrări pentru videoclipuri în timp real. De asemenea, puteți utiliza serviciul pentru a transcrie înregistrări și a indexa textul pentru a crește expunerea materialului. Este cunoscut faptul că marea majoritate a utilizatorilor de rețele sociale vizionează videoclipuri fără sunetul activat. Adăugarea subtitrărilor la un videoclip va avea, de asemenea, un impact pozitiv asupra interacțiunii publicului cu acesta.

Traduceri

Speech-to-text este un serviciu care suportă și traducerile – indiferent dacă sunt generate în timp real sau sunt adăugate ca subtitrări unui videoclip. Acest lucru se datorează faptului că serviciul întâi transcrie și apoi traduce textul, nu transcrie direct sursa audio. Drept urmare, putem afișa subtitrări în limba engleză pentru film într-o altă limbă străină sau putem folosi simultan instrumentul de traduceri din Google Assistant.

Ce alte funcții și aplicații business are Speech-to-Text?

Vocabular global: Puteți răspunde nevoilor unei afaceri globale cu suport extins în peste 125 de limbi și dialecte.
Recunoașterea vorbirii pe multiple canale: Speech-to-Text poate recunoaște canale distincte de la multipli vorbitori (de exemplu, în cazul unei videoconferințe) și poate adnota transcrierile pentru a păstra ordinea prezentărilor.
Filtrarea conținutului: Folosind filtre, puteți să detectați conținutul neadecvat sau neprofesional din datele dvs. audio și să excludeți anumite cuvinte din textul final.
Recunoașterea punctuației: Speech-to-Text redă cu acuratețe transcripțiile și include virgule, semne de întrebare și alte semne de punctuație.

Cât costă serviciul Speech-to-Text?

Costurile serviciului reflectă cantitativ sunetul procesat cu succes în fiecare lună, în incremente de câte o secundă.

Dacă API-ul returnează un răspuns, sunetul trimis a fost procesat cu succes. Solicitările care rezultă într-o eroare de server nu sunt considerate procesate cu succes și, prin urmare, nu implică niciun cost.

Pentru modelele de recunoaștere automată a vorbirii (ASR: Implicit și ASR: Comandă și căutare), prețul este de 0,006 USD /15 secunde.

Pentru modelele premium (video și apel telefonic), prețul este de 0,009 USD /15 secunde.

Obține Speech-to-Text în regim pay-as-you-go

Cu sprijinul FOTC

Programează o discuție

Dacă sunteți noi în ecosistemul Google Cloud, vă puteți creați un cont de test pentru a evalua modul în care funcționează Speech-to-Text în scenarii reale. Clienții noi FOTC beneficiază, de asemenea, de un voucher de 500 USD pentru a rula, a testa și a implementa sarcini de lucru în Google Cloud.

Cum să folosiți Speech-to-Text: Tutorial

Pentru a implementa serviciul Speech-to-Text, aveți nevoie întâi de un cont pe Google Cloud. Mergeți în consolă și creați un nou proiect.

Din bara laterală de meniu, selectați APIs & Services / Dashboard.

Clic pe ENABLE APIS AND SERVICES.

Căutați opțiunea Cloud Speech API.

Clic pe Enable. Așteptați câteva secunde. Rulați Cloud Shell cu un clic pe pictograma din colțul de sus dreapta.

Așteptați ca proiectul user@project:~$ să se încheie.

Generați apoi o cheie API pentru redirecționarea cererilor. Pentru a crea cheia, accesați APIs & Services / Credentials.

Selectați Create credentials și clic apoi pe cheia API din meniul drop-down.

Copiați cheia care tocmai a fost generată. În Cloudshell, introduceți comanda de export. Înlocuiți your_api_key cu cheia nou generată.

export API_KEY= YOUR_API_KEY

Puteți crea cererea către API-ul serviciului într-un fișier request.json. Pentru a crea acest fișier, puteți utiliza editorul de cod încorporat al Cloudshell:

Creați un fișier cu numele request.json și adăugați următoarele linii:

{
config {
encoding:FLAC, languageCode: en-US
}audio: {
uri: gs://cloud-samples-tests/speech/brooklyn.flac
}
}

În consolă, tastați următoarea comandă (pe o singură linie):

curl -s -X POST -H Content-Type: application/json --data-binary @request.json https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}

Răspunsul trebuie să arate așa:

{
results: [
{
alternatives: [
{
transcript: how old is the Brooklyn Bridge, confidence: 0.98267895
}
]
}
]
}

Transcripția va conține transcrierea fișierului audio brooklyn.flac creat de serviciu. Nivelul de confidence indică probabilitatea cu care API-ul a recunoscut și procesat corect vorbirea în text.

Am ajuns la final, acesta este un scurt tutorial al modului în care funcționează API-ul Speech-to-Text.

Construiește cu tehnologia Speech-to-Text în Google Cloud [Tutorial]