Tartalomjegyzék
- Beszédről szövegre (Speech-to-Text) a Google Cloud szolgáltatásból – mi ez?
- A beszédről szövegre konvertáló modellek a Speech-to-Text szolgáltatásban
- A beszédről szövegre feldolgozási szolgáltatás használatának módjai
- Mennyibe kerül a Speech-to-Text a GCP-ben?
- Speech-to-Text TUTORIAL
- Ellenőrizze a Speech-to-Text ingyen – szerezzen 500 dolláros GCP-utalványt
A beszéd szövegbe való átalakítása egy áttörést jelentő technológia, amely növeli az ember-gép mindennapi interakció lehetőségeit. A technológia lehetővé teszi, hogy a számítógépek felismerjék a beszédet és reagáljanak a kimondott parancsokra. Ez pedig számos tevékenység automatizálását, a termelékenységet növelő eszközök és az ügyfélszolgálatot támogató rendszerek létrehozását jelenti.
Beszédről szövegre (Speech-to-Text) a Google Cloud szolgáltatásból – mi ez?
A Speech-to-Text (egyesek nevezik Voice-to-Text is) a Google Cloud Platform egyik szolgáltatása. A szolgáltatást automatizált beszéd-szöveg feldolgozásra, azaz átírásra használják. Fejlett gépi tanulási modelleket használ a Google-tól, és lehetővé teszi, hogy több mint 125 nyelven és nyelvjárásban írjon át. A Speech-to-Text szolgáltatás API-ként jelenik meg (alkalmazásprogramozási felület, amely lehetővé teszi a rendszer csatlakoztatását egy működő eszközzel és a funkciók használatát a saját alkalmazásában). Ennek eredményeként egy már működő és bevált szolgáltatás viszonylag alacsony költséggel megvalósítható bármely termékben (az alkalmazás műszaki követelményekhez való igazítása után).
A Speech-to-Text kétféleképpen képes feldolgozni a beszédet:
- valós időben, amikor a felhasználó aktív szolgáltatással beszélget az alkalmazással,
- vagy átírhatja a beszédet egy feltöltött audio- vagy videofájlból.
A szolgáltatás megbirkózik akár rendkívül iparági specifikus kifejezések és terminusok átírásával is. Az osztályok használatának köszönhetően a “kimondott” számokat, címeket vagy dátumokat a cél jelöléssé is konvertálja (pl. ötvenhárom 53-ként lesz írva).
A konténerekben létrehozott, a Google Kubernetes Engine szintjéről kezelt alkalmazás esetében a Speech-to-Text szolgáltatást használhatja a helyszíni modellben (a Speech-to-Text On-Prem szolgáltatás premierje bejelentette a Google Cloud Next ’20: OnAir konferencia során). A szolgáltatás tárolóként van telepítve az alkalmazásba, és ezután helyi környezetben használható. Ez a megoldás különösen azoknak a szervezeteknek lesz hasznos, amelyeknek be kell tartaniuk a törvényi előírásokat és korlátozniuk kell a felhőalapú számítást.
Nézze meg: On-premise, magán, állami, hibrid felhő és multi-cloud – ezek a megoldások előnyei és hátrányai
A beszédről szövegre konvertáló modellek a Speech-to-Text szolgáltatásban
A szolgáltatás különféle átírási modelleket kínál, a felvételek vagy a hangforrások típusához igazítva. Jelenleg négy modell kapható:
- alapértelmezett automatikus beszédfelismerés (ASR: Default) – ez a modell hosszabb hangfelvételek átírására használható, egyetlen hangszóró hangjával; ez a modell 16 000 Hz vagy nagyobb frekvenciájú felvételekkel működik a legjobban,
- automatikus beszédfelismerés parancsokhoz és keresésekhez (ASR: Command and search) – rövid felvételek, például egy alkalmazásnak küldött hangparancsok átírására szolgáló modell,
- videó átírás (Video) – a beszédből szöveggé történő feldolgozás modellje video anyagokból, amelyben sok előadó regisztrálva van; a legjobb kezeli a felvételeket vagy a streaminget 16 000 Hz vagy annál magasabb frekvencián; ez egy prémium modell és költsége magasabb, mint az ASR automatikus beszédfelismerő modelleké,
- telefonbeszélgetés felvétele (Phone call) – telefonbeszélgetések átírására tervezett modell; a legjobban támogatja a 8000 Hz-es felvételeket; ez egy prémium modell, drágább, mint az ASR modellek.
A modelleknek köszönhetően a beszédfeldolgozó szolgáltatást az alkalmazás céljához lehet igazítani. Más modell kerül kiválasztásra a streaming példányok létrehozásához, egy másik a forródróton dolgozó ügyfélszolgálati ügynökök támogatási eszközéhez, és egy másik az alkalmazás hangparancsok használatához.
A beszédről szövegre feldolgozási szolgáltatás használatának módjai
A Speech-to-Text sok lehetőséget nyit meg, és az átírási modellek lehetővé teszik a szolgáltatás sokféle alkalmazásban való használatát. A Speech-to-Text használható többek között automatizálásban vagy ügyfélszolgálatban, valós idejű videóátírásban vagy hangutasító alkalmazások kiadásában. Íme néhány olyan forgatókönyv, ahol a Speech-to-Text nagy szerepe lesz.
Ügyfélszolgálati támogatás
A Speech-to-Text az egyik alapvető Contact Center AI szolgáltatás – a Google Cloud készlete ügyfélszolgálati megoldások készítéséhez mesterséges intelligencia segítségével.
A Speech-to-Text (és a Contact Center AI portfólió egyéb szolgáltatásai) segítségével létrehozhat egy támogatási rendszert többek között a forródróton dolgozó tanácsadók számára. A rendszer a beszélgetés valós idejű átírásával, a párbeszédek elemzésével és az ügyfél szándékainak elolvasásával biztosítja a szolgáltató ügynök számára a szükséges anyagokat és utasításokat a beszélgetés folytatásához. A szolgáltatás felhasználható egy IVR (interactive voice response) rendszer felépítésére – egy automatikus ügyfélközpont, az ügyfél által működtetett hang, amely segít megoldani az egyszerű problémákat, és nehezebb kérdések esetén átirányítja a beszélgetőt egy tanácsadóhoz.
Nézze meg: Hogyan támogatja a Google Cloud Platform és a mesterséges intelligencia az e-kereskedelmet
Hangvezérlés
A Speech-to-Text lehetővé teszi hangparancsok végrehajtását és az alkalmazás beszéd segítségével történő vezérlését. Még dedikált átírási modellje is van – ASR: Command and Search. A szolgáltatás használatának köszönhetően az alkalmazás képes kezelni a hangutasításokat vagy megválaszolni a kérdéseket, például “lejátszani egy másik filmet a sorból”, “növelni a hangerőt” vagy “ellenőrizni szombaton a Mátra-hegység időjárását”. A szolgáltatás megvalósítható a tárgyak internete technológiákat alkalmazó alkalmazásokban is (például a Google Cloud IoT platformon hozható létre), amelyek lehetővé teszik a felhasználók számára, hogy hangalapú eszközökkel irányítsák az intelligens eszközöket.
Hanggépelés
A hangos feljegyzések készítése egyesek számára isteni eladás. A szöveges diktálás már számos alkalmazásban elérhető, beleértve a Google Dokumentumok vagy a Diák a Google Workspace-ben (korábban G Suite).
Multimédia átírás
A Speech-to-Text lehetővé teszi, hogy valós időben feliratokat adjon videóihoz. A szolgáltatás segítségével átírhatja a rögzített anyagot, és indexelheti egy podcast vagy beszéd tartalmát, amely lehetővé teszi az anyag elérhetőségének növelését. A film feliratai pozitív hatással lesznek a címzett élményére is – a közösségi média felhasználói túlnyomó többsége anélkül néz filmeket, hogy a hang be lenne kapcsolva.
Fordítások
A Speech-to-Text egyike azoknak a szolgáltatásoknak, amelyek támogatják a fordítást – egyidejűleg vagy a filmhez hozzáadott feliratok formájában. Ennek oka, hogy a fordító alkalmazás először átírja és lefordítja a szöveget, nem pedig közvetlenül a hangot. Ennek eredményeként lengyel vagy angol feliratokat jeleníthetünk meg idegen nyelven, vagy használhatunk egyidejű fordítót a Google Segédben.
Példa a Speech-to-Text használatára – a Castbox platform podcastokkal
A Castbox egy hongkongi vállalat – a régió legnagyobb podcasting platformja (naponta körülbelül 2 millió felhasználó használja). Alkalmazásában közel 100 millió felvételt biztosít – podcast epizódokat és hangoskönyveket több mint 70 nyelven. A Castbox megkülönbözteti az összes megosztott felvétel átírását, a tartalom indexelését és lehetővé teszi az egyes epizódok töredékeinek keresését kifejezések és kulcsszavak alapján.
A Castbox a Google Cloud Platform szolgáltatásainak köszönhetően napi körülbelül 20 órányi felvételt képes átírni, 96%-os hatékonysággal a beszéd-szöveg átalakításban.
Mennyibe kerül a Speech-to-Text a GCP-ben?
Minden hónap első 60 perce ingyenes. Egy óra felett a következő 15 másodperc fogyasztásért felszámításra kerül.
Az automatikus beszédfelismerő modellek esetén (ASR: Default oraz ASR: Command and search) csak 0,006 $ minden 15 masodperc.
A prémium modellek esetén (Video és Phone Call) nem más, mint 0,009 $ minden 15 masodperc.
Speech-to-Text TUTORIAL
A Speech-to-Text megvalósításához Google Cloud Platform-fiókra van szükség.
Itt megtudhatja, hogyan hozhat létre fiókot a GCP-n.
Menj a konzolhoz. Hozzon létre egy új projektet, és emlékezzen az ID azonosítójára.
Az oldalsávon (bal oldali menü) válassza a APIs & Services / Dashboard lehetőséget.
Válassza az ENABLE APIS AND SERVICES opciót.
Keresse a Cloud Speech API lehetőséget.
Kattintson ide Enable és várjon néhány másodpercet.
Indítsa el a Cloud Shell alkalmazást. A Cloud Shell aktiválásához kattintson a sáv jobb felső sarkában lévő ikonra.
Várja meg a user@project:~$ projekt megkezdését.
Ezután generáljon API-kulcsot a kérések továbbításához. Kulcs létrehozásához lépjen a következőre: APIs & Services – Credentials.
Válassza a Create credentials létrehozása lehetőséget, majd kattintson a legördülő menü API key kulcsára.
Másolja a most létrehozott kulcsot. A Cloudshellben írja be a export parancsot. Cserélje le a your_api_key kulcsot a létrehozott kulcsra.
export API_KEY=YOUR_API_KEY
Összeállíthat egy kérést a szolgáltatás API-hoz a request.json fájlban . A fájl létrehozásához használhatja a Cloud Shellbe épített kódszerkesztőt:
Hozzon létre egy request.json nevű fájlt a saját könyvtárában, és adja hozzá a következőket:
{ config: { encoding: FLAC,languageCode: en-US }, audio: { uri:gs://cloud-samples-tests/speech/brooklyn.flac } }
A konzolba írja be a következő parancsot (egy sorban):
curl -s -X POST -H Content-Type: application/json --data-binary @request.json https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}
A válasznak így kell kinéznie:
{ results: [ { alternatives: [ { transcript: how old is the Brooklyn Bridge, confidence: 0.98267895 } ] } ] }
A transcript értéke tartalmazza a szolgáltatás által előállított brooklyn.flac hangfájl átírást. A confidence jelzi annak valószínűségét, hogy az API helyesen ismeri fel és alakítja át a beszédet szöveggé.
És ennyi! A Speech-to-Text API így működik.
Ellenőrizze a Speech-to-Text ingyen – szerezzen 500 dolláros GCP-utalványt
A Speech-to-Text a Google Cloud Platform által kínált számos szolgáltatás egyike. Azáltal, hogy infrastruktúrát hoz létre a felhőn a Google-tól, kényelmes és stabil módon fejlesztheti és méretezheti alkalmazását. Ingyenesen tájékozódhat a GCP által kínált szolgáltatásokról és lehetőségekről, a tanúsított Cloud Architects támogatásával. A FOTC Google Cloud Premier partnerként 500 dolláros utalványt ad az ügyfeleknek a Google platform bármely szolgáltatásához.
További információ a Google Cloud Platformról
Vegye fel velünk a kapcsolatot, ha 500 dolláros GCP-utalványt szeretne kapni