{"id":31911,"date":"2020-09-18T13:22:42","date_gmt":"2020-09-18T11:22:42","guid":{"rendered":"https:\/\/fotc.com\/speech-to-text-gcp-tutorial\/"},"modified":"2022-05-10T11:25:00","modified_gmt":"2022-05-10T09:25:00","slug":"speech-to-text-gcp-tutorial","status":"publish","type":"post","link":"https:\/\/fotc.com\/hu\/blog\/speech-to-text-gcp-tutorial\/","title":{"rendered":"A besz\u00e9d sz\u00f6vegbe val\u00f3 \u00e1talak\u00edt\u00e1sa a Google Cloud alap\u00fa Speech-to-Text alkalmaz\u00e1s\u00e1val [oktat\u00f3anyag]"},"content":{"rendered":"\n
A besz\u00e9d sz\u00f6vegbe val\u00f3 \u00e1talak\u00edt\u00e1sa egy \u00e1tt\u00f6r\u00e9st jelent\u0151 technol\u00f3gia, amely n\u00f6veli az ember-g\u00e9p mindennapi interakci\u00f3 lehet\u0151s\u00e9geit. A technol\u00f3gia lehet\u0151v\u00e9 teszi, hogy a sz\u00e1m\u00edt\u00f3g\u00e9pek felismerj\u00e9k a besz\u00e9det \u00e9s reag\u00e1ljanak a kimondott parancsokra. Ez pedig sz\u00e1mos tev\u00e9kenys\u00e9g automatiz\u00e1l\u00e1s\u00e1t, a termel\u00e9kenys\u00e9get n\u00f6vel\u0151 eszk\u00f6z\u00f6k \u00e9s az \u00fcgyf\u00e9lszolg\u00e1latot t\u00e1mogat\u00f3 rendszerek l\u00e9trehoz\u00e1s\u00e1t jelenti.<\/span> A Speech-to-Text (egyesek nevezik Voice-to-Text is) a Google Cloud Platform<\/a> egyik szolg\u00e1ltat\u00e1sa. <\/span>A szolg\u00e1ltat\u00e1st automatiz\u00e1lt besz\u00e9d-sz\u00f6veg feldolgoz\u00e1sra, azaz \u00e1t\u00edr\u00e1sra haszn\u00e1lj\u00e1k<\/b>. Fejlett g\u00e9pi tanul\u00e1si modelleket haszn\u00e1l a Google-t\u00f3l, \u00e9s lehet\u0151v\u00e9 teszi, hogy <\/span>t\u00f6bb mint 125 nyelven \u00e9s nyelvj\u00e1r\u00e1sban<\/b> \u00edrjon \u00e1t. A Speech-to-Text szolg\u00e1ltat\u00e1s <\/span>API-k\u00e9nt jelenik meg<\/b> (alkalmaz\u00e1sprogramoz\u00e1si fel\u00fclet, amely lehet\u0151v\u00e9 teszi a rendszer csatlakoztat\u00e1s\u00e1t egy m\u0171k\u00f6d\u0151 eszk\u00f6zzel \u00e9s a funkci\u00f3k haszn\u00e1lat\u00e1t a saj\u00e1t alkalmaz\u00e1s\u00e1ban). Ennek eredm\u00e9nyek\u00e9nt egy m\u00e1r m\u0171k\u00f6d\u0151 \u00e9s bev\u00e1lt szolg\u00e1ltat\u00e1s viszonylag alacsony k\u00f6lts\u00e9ggel megval\u00f3s\u00edthat\u00f3 b\u00e1rmely term\u00e9kben (az alkalmaz\u00e1s m\u0171szaki k\u00f6vetelm\u00e9nyekhez val\u00f3 igaz\u00edt\u00e1sa ut\u00e1n).<\/span><\/p>\n\n\n\n A Speech-to-Text k\u00e9tf\u00e9lek\u00e9ppen k\u00e9pes feldolgozni a besz\u00e9det:<\/span><\/p>\n\n\n\n A szolg\u00e1ltat\u00e1s megbirk\u00f3zik ak\u00e1r rendk\u00edv\u00fcl ipar\u00e1gi specifikus kifejez\u00e9sek \u00e9s terminusok \u00e1t\u00edr\u00e1s\u00e1val is. Az oszt\u00e1lyok haszn\u00e1lat\u00e1nak k\u00f6sz\u00f6nhet\u0151en a “kimondott” sz\u00e1mokat, c\u00edmeket vagy d\u00e1tumokat a c\u00e9l jel\u00f6l\u00e9ss\u00e9 is konvert\u00e1lja (pl. <\/span>\u00f6tvenh\u00e1rom<\/span><\/i> 53-k\u00e9nt lesz \u00edrva).<\/span><\/p>\n\n\n\n A kont\u00e9nerekben l\u00e9trehozott, a <\/span>Google Kubernetes Engine<\/span> szintj\u00e9r\u0151l kezelt alkalmaz\u00e1s eset\u00e9ben a Speech-to-Text szolg\u00e1ltat\u00e1st haszn\u00e1lhatja a helysz\u00edni modellben (a Speech-to-Text On-Prem szolg\u00e1ltat\u00e1s premierje bejelentette a <\/span>Google Cloud Next ’20: OnAir<\/span> konferencia sor\u00e1n). A szolg\u00e1ltat\u00e1s t\u00e1rol\u00f3k\u00e9nt van telep\u00edtve az alkalmaz\u00e1sba, \u00e9s ezut\u00e1n helyi k\u00f6rnyezetben haszn\u00e1lhat\u00f3. Ez a megold\u00e1s k\u00fcl\u00f6n\u00f6sen azoknak a szervezeteknek lesz hasznos, amelyeknek be kell tartaniuk a t\u00f6rv\u00e9nyi el\u0151\u00edr\u00e1sokat \u00e9s korl\u00e1tozniuk kell a felh\u0151alap\u00fa sz\u00e1m\u00edt\u00e1st.<\/span><\/p>\n\n\n\n N\u00e9zze meg: <\/span>On-premise, mag\u00e1n, \u00e1llami, hibrid felh\u0151 \u00e9s multi-cloud \u2013 ezek a megold\u00e1sok el\u0151nyei \u00e9s h\u00e1tr\u00e1nyai <\/span><\/a><\/p>\n\n\n\n A szolg\u00e1ltat\u00e1s k\u00fcl\u00f6nf\u00e9le \u00e1t\u00edr\u00e1si modelleket k\u00edn\u00e1l, a felv\u00e9telek vagy a hangforr\u00e1sok t\u00edpus\u00e1hoz igaz\u00edtva. Jelenleg n\u00e9gy modell kaphat\u00f3:<\/span><\/p>\n\n\n\n A modelleknek k\u00f6sz\u00f6nhet\u0151en a besz\u00e9dfeldolgoz\u00f3 szolg\u00e1ltat\u00e1st az alkalmaz\u00e1s c\u00e9lj\u00e1hoz lehet igaz\u00edtani. M\u00e1s modell ker\u00fcl kiv\u00e1laszt\u00e1sra a streaming p\u00e9ld\u00e1nyok l\u00e9trehoz\u00e1s\u00e1hoz, egy m\u00e1sik a forr\u00f3dr\u00f3ton dolgoz\u00f3 \u00fcgyf\u00e9lszolg\u00e1lati \u00fcgyn\u00f6k\u00f6k t\u00e1mogat\u00e1si eszk\u00f6z\u00e9hez, \u00e9s egy m\u00e1sik az alkalmaz\u00e1s hangparancsok haszn\u00e1lat\u00e1hoz.<\/span><\/p>\n\n\n\n A Speech-to-Text sok lehet\u0151s\u00e9get nyit meg, \u00e9s az \u00e1t\u00edr\u00e1si modellek lehet\u0151v\u00e9 teszik a szolg\u00e1ltat\u00e1s sokf\u00e9le alkalmaz\u00e1sban val\u00f3 haszn\u00e1lat\u00e1t. A Speech-to-Text haszn\u00e1lhat\u00f3 t\u00f6bbek k\u00f6z\u00f6tt automatiz\u00e1l\u00e1sban vagy \u00fcgyf\u00e9lszolg\u00e1latban, val\u00f3s idej\u0171 vide\u00f3\u00e1t\u00edr\u00e1sban vagy hangutas\u00edt\u00f3 alkalmaz\u00e1sok kiad\u00e1s\u00e1ban. \u00cdme n\u00e9h\u00e1ny olyan forgat\u00f3k\u00f6nyv, ahol a Speech-to-Text nagy szerepe lesz.<\/span><\/p>\n\n\n\n A Speech-to-Text az egyik alapvet\u0151 Contact Center AI szolg\u00e1ltat\u00e1s – a Google Cloud k\u00e9szlete \u00fcgyf\u00e9lszolg\u00e1lati megold\u00e1sok k\u00e9sz\u00edt\u00e9s\u00e9hez mesters\u00e9ges intelligencia seg\u00edts\u00e9g\u00e9vel.<\/span><\/p>\n\n\n\n A Speech-to-Text (\u00e9s a Contact Center AI portf\u00f3li\u00f3 egy\u00e9b szolg\u00e1ltat\u00e1sai) seg\u00edts\u00e9g\u00e9vel l\u00e9trehozhat egy <\/span>t\u00e1mogat\u00e1si rendszert t\u00f6bbek k\u00f6z\u00f6tt a forr\u00f3dr\u00f3ton dolgoz\u00f3 tan\u00e1csad\u00f3k<\/b> sz\u00e1m\u00e1ra. A rendszer a besz\u00e9lget\u00e9s val\u00f3s idej\u0171 \u00e1t\u00edr\u00e1s\u00e1val, a p\u00e1rbesz\u00e9dek elemz\u00e9s\u00e9vel \u00e9s az \u00fcgyf\u00e9l sz\u00e1nd\u00e9kainak elolvas\u00e1s\u00e1val biztos\u00edtja a szolg\u00e1ltat\u00f3 \u00fcgyn\u00f6k sz\u00e1m\u00e1ra a sz\u00fcks\u00e9ges anyagokat \u00e9s utas\u00edt\u00e1sokat a besz\u00e9lget\u00e9s folytat\u00e1s\u00e1hoz. A szolg\u00e1ltat\u00e1s <\/span>felhaszn\u00e1lhat\u00f3 egy IVR<\/b> (<\/span>interactive voice response<\/span><\/i>) rendszer fel\u00e9p\u00edt\u00e9s\u00e9re – egy automatikus \u00fcgyf\u00e9lk\u00f6zpont, az \u00fcgyf\u00e9l \u00e1ltal m\u0171k\u00f6dtetett hang, amely seg\u00edt megoldani az egyszer\u0171 probl\u00e9m\u00e1kat, \u00e9s nehezebb k\u00e9rd\u00e9sek eset\u00e9n \u00e1tir\u00e1ny\u00edtja a besz\u00e9lget\u0151t egy tan\u00e1csad\u00f3hoz.<\/span><\/p>\n\n\n\n N\u00e9zze meg: <\/span>Hogyan t\u00e1mogatja a Google Cloud Platform \u00e9s a mesters\u00e9ges intelligencia az e-kereskedelmet<\/span><\/a><\/p>\n\n\n\n A Speech-to-Text lehet\u0151v\u00e9 teszi hangparancsok v\u00e9grehajt\u00e1s\u00e1t \u00e9s az alkalmaz\u00e1s besz\u00e9d seg\u00edts\u00e9g\u00e9vel t\u00f6rt\u00e9n\u0151 vez\u00e9rl\u00e9s\u00e9t. M\u00e9g dedik\u00e1lt \u00e1t\u00edr\u00e1si modellje is van – ASR: Command and Search. A szolg\u00e1ltat\u00e1s haszn\u00e1lat\u00e1nak k\u00f6sz\u00f6nhet\u0151en az alkalmaz\u00e1s k\u00e9pes kezelni a hangutas\u00edt\u00e1sokat vagy megv\u00e1laszolni a k\u00e9rd\u00e9seket, p\u00e9ld\u00e1ul “lej\u00e1tszani egy m\u00e1sik filmet a sorb\u00f3l”, “n\u00f6velni a hanger\u0151t” vagy “ellen\u0151rizni szombaton a M\u00e1tra-hegys\u00e9g id\u0151j\u00e1r\u00e1s\u00e1t”. A szolg\u00e1ltat\u00e1s megval\u00f3s\u00edthat\u00f3 a t\u00e1rgyak internete technol\u00f3gi\u00e1kat alkalmaz\u00f3 alkalmaz\u00e1sokban is (p\u00e9ld\u00e1ul a <\/span>Google Cloud IoT platformon<\/span> hozhat\u00f3 l\u00e9tre), amelyek lehet\u0151v\u00e9 teszik a felhaszn\u00e1l\u00f3k sz\u00e1m\u00e1ra, hogy hangalap\u00fa eszk\u00f6z\u00f6kkel ir\u00e1ny\u00edts\u00e1k az intelligens eszk\u00f6z\u00f6ket.<\/span><\/p>\n\n\n\n A hangos feljegyz\u00e9sek k\u00e9sz\u00edt\u00e9se egyesek sz\u00e1m\u00e1ra isteni elad\u00e1s. A sz\u00f6veges dikt\u00e1l\u00e1s m\u00e1r sz\u00e1mos alkalmaz\u00e1sban el\u00e9rhet\u0151, bele\u00e9rtve <\/span>a Google Dokumentumok vagy a Di\u00e1k<\/b> a <\/span>Google Workspace-ben (kor\u00e1bban G Suite)<\/span><\/a>.<\/span><\/p>\n\n\n\n A Speech-to-Text lehet\u0151v\u00e9 teszi, hogy val\u00f3s id\u0151ben feliratokat adjon vide\u00f3ihoz. A szolg\u00e1ltat\u00e1s seg\u00edts\u00e9g\u00e9vel \u00e1t\u00edrhatja a r\u00f6gz\u00edtett anyagot, \u00e9s indexelheti egy podcast vagy besz\u00e9d tartalm\u00e1t, amely lehet\u0151v\u00e9 teszi <\/span>az anyag el\u00e9rhet\u0151s\u00e9g\u00e9nek n\u00f6vel\u00e9s\u00e9t<\/b>. A film feliratai <\/span>pozit\u00edv hat\u00e1ssal lesznek a c\u00edmzett \u00e9lm\u00e9ny\u00e9re is<\/b> – a k\u00f6z\u00f6ss\u00e9gi m\u00e9dia felhaszn\u00e1l\u00f3i t\u00falnyom\u00f3 t\u00f6bbs\u00e9ge an\u00e9lk\u00fcl n\u00e9z filmeket, hogy a hang be lenne kapcsolva.<\/span><\/p>\n\n\n\n A Speech-to-Text egyike azoknak a szolg\u00e1ltat\u00e1soknak, amelyek t\u00e1mogatj\u00e1k a ford\u00edt\u00e1st – egyidej\u0171leg vagy a filmhez hozz\u00e1adott feliratok form\u00e1j\u00e1ban. Ennek oka, hogy a ford\u00edt\u00f3 alkalmaz\u00e1s el\u0151sz\u00f6r \u00e1t\u00edrja \u00e9s leford\u00edtja a sz\u00f6veget, nem pedig k\u00f6zvetlen\u00fcl a hangot. Ennek eredm\u00e9nyek\u00e9nt <\/span>lengyel vagy angol feliratokat jelen\u00edthet\u00fcnk meg idegen nyelven<\/b>, vagy haszn\u00e1lhatunk <\/span>egyidej\u0171 ford\u00edt\u00f3t a Google Seg\u00e9dben<\/span>.<\/span><\/p>\n\n\n\n A Castbox egy hongkongi v\u00e1llalat – a r\u00e9gi\u00f3 legnagyobb podcasting platformja (naponta k\u00f6r\u00fclbel\u00fcl 2 milli\u00f3 felhaszn\u00e1l\u00f3 haszn\u00e1lja). Alkalmaz\u00e1s\u00e1ban k\u00f6zel 100 milli\u00f3 felv\u00e9telt biztos\u00edt – podcast epiz\u00f3dokat \u00e9s hangosk\u00f6nyveket t\u00f6bb mint 70 nyelven. <\/span>A Castbox megk\u00fcl\u00f6nb\u00f6zteti az \u00f6sszes megosztott felv\u00e9tel \u00e1t\u00edr\u00e1s\u00e1t, a tartalom indexel\u00e9s\u00e9t \u00e9s lehet\u0151v\u00e9 teszi az egyes epiz\u00f3dok t\u00f6red\u00e9keinek keres\u00e9s\u00e9t kifejez\u00e9sek \u00e9s kulcsszavak alapj\u00e1n<\/b>.<\/span><\/p>\n\n\n\n A Castbox a Google Cloud Platform szolg\u00e1ltat\u00e1sainak k\u00f6sz\u00f6nhet\u0151en napi k\u00f6r\u00fclbel\u00fcl 20 \u00f3r\u00e1nyi felv\u00e9telt k\u00e9pes \u00e1t\u00edrni, 96%-os hat\u00e9konys\u00e1ggal a besz\u00e9d-sz\u00f6veg \u00e1talak\u00edt\u00e1sban.<\/span><\/p>\n\n\n\n Minden h\u00f3nap els\u0151 60 perce ingyenes. <\/b>Egy \u00f3ra felett a k\u00f6vetkez\u0151 15 m\u00e1sodperc fogyaszt\u00e1s\u00e9rt felsz\u00e1m\u00edt\u00e1sra ker\u00fcl.<\/span><\/p>\n\n\n\n Az automatikus besz\u00e9dfelismer\u0151 modellek eset\u00e9n (<\/span>ASR: Default <\/span><\/i>oraz <\/span>ASR: Command and search<\/span><\/i>) csak <\/span>0,006 $ minden 15 masodperc<\/b>.<\/span><\/p>\n\n\n\n A pr\u00e9mium modellek eset\u00e9n (<\/span>Video <\/span><\/i>\u00e9s <\/span>Phone Call<\/span><\/i>) nem m\u00e1s, mint <\/span>0,009 $ minden 15 masodperc<\/b>.<\/span><\/p>\n\n\n\n A Speech-to-Text megval\u00f3s\u00edt\u00e1s\u00e1hoz Google Cloud Platform-fi\u00f3kra van sz\u00fcks\u00e9g.<\/span><\/p>\n\n\n\n Itt megtudhatja, hogyan <\/a><\/span>hozhat l\u00e9tre fi\u00f3kot a GCP-n<\/span>.<\/span><\/p>\n\n\n\n
\n<\/p>\n\n\n\n\n\n\n\nBesz\u00e9dr\u0151l sz\u00f6vegre (Speech-to-Text) a Google Cloud szolg\u00e1ltat\u00e1sb\u00f3l – mi ez?<\/span><\/h2>\n\n\n\n
A besz\u00e9dr\u0151l sz\u00f6vegre konvert\u00e1l\u00f3 modellek<\/span> a Speech-to-Text szolg\u00e1ltat\u00e1sban<\/span><\/h2>\n\n\n\n
A besz\u00e9dr\u0151l sz\u00f6vegre feldolgoz\u00e1si szolg\u00e1ltat\u00e1s haszn\u00e1lat\u00e1nak m\u00f3djai<\/span><\/h2>\n\n\n\n
\u00dcgyf\u00e9lszolg\u00e1lati t\u00e1mogat\u00e1s<\/span><\/h3>\n\n\n\n
Hangvez\u00e9rl\u00e9s<\/span><\/h3>\n\n\n\n
Hangg\u00e9pel\u00e9s<\/span><\/h3>\n\n\n\n
Multim\u00e9dia \u00e1t\u00edr\u00e1s<\/span><\/h3>\n\n\n\n
Ford\u00edt\u00e1sok<\/span><\/h3>\n\n\n\n
P\u00e9lda a Speech-to-Text haszn\u00e1lat\u00e1ra \u2013 a Castbox platform podcastokkal<\/span><\/h3>\n\n\n\n
Mennyibe ker\u00fcl a Speech-to-Text a GCP-ben?<\/span><\/h2>\n\n\n\n
Speech-to-Text TUTORIAL<\/h2>\n\n\n\n