{"id":31247,"date":"2020-09-18T13:22:42","date_gmt":"2020-09-18T11:22:42","guid":{"rendered":"https:\/\/fotc.com\/?p=31247"},"modified":"2023-11-27T08:18:43","modified_gmt":"2023-11-27T07:18:43","slug":"speech-to-text-gcp-tutorial","status":"publish","type":"post","link":"https:\/\/fotc.com\/pl\/blog\/speech-to-text-gcp-tutorial\/","title":{"rendered":"Speech to text, czyli zamiana mowy na tekst [Tutorial]"},"content":{"rendered":"\n
Trakskrypcja mowy na tekst to prze\u0142omowa technologia, kt\u00f3ra zwi\u0119ksza mo\u017cliwo\u015bci codziennej interakcji cz\u0142owieka z maszyn\u0105. Technologia pozwala komputerom rozpoznawa\u0107 mow\u0119 i reagowa\u0107 na wypowiedziane polecenia. A to przek\u0142ada si\u0119 na automatyzacj\u0119 wielu czynno\u015bci, powstawanie narz\u0119dzi zwi\u0119kszaj\u0105cych produktywno\u015b\u0107 czy system\u00f3w wspieraj\u0105cych obs\u0142ug\u0119 klienta.<\/span><\/p>\n\n\n\n Speech-to-Text (przez niekt\u00f3rych nazywane Voice-to-Text) to jedna z us\u0142ug <\/span>Google Cloud Platform<\/span><\/a>. <\/span>Us\u0142uga s\u0142u\u017cy do zautomatyzowanej konwersji mowy na tekst, czyli prowadzenia transkrypcji<\/b>. Wykorzystuje zaawansowane modele uczenia maszynowego od Google i pozwala prowadzi\u0107 transkrypcj\u0119 w<\/span> ponad 125 j\u0119zykach i dialektach<\/b>. Us\u0142uga Speech-to-Text jest <\/span>udost\u0119pniana jako API<\/b> (interfejs programowania aplikacji, kt\u00f3ry umo\u017cliwia \u0142\u0105czenie systemu z funkcjonuj\u0105cym narz\u0119dziem i wykorzystywanie jego funkcji we w\u0142asnej aplikacji). Dzi\u0119ki temu ju\u017c dzia\u0142aj\u0105c\u0105 i sprawdzon\u0105 us\u0142ug\u0119 mo\u017cna zaimplementowa\u0107 relatywnie niskim kosztem w dowolnym produkcie (po uprzednim dostosowaniu aplikacji do wymaga\u0144 technicznych).<\/span><\/p>\n\n\n\n Speech-to-Text mo\u017ce przetwarza\u0107 mow\u0119 na dwa sposoby:<\/span><\/p>\n\n\n\n Us\u0142uga radzi sobie z transkrypcj\u0105 nawet mocno bran\u017cowych zwrot\u00f3w i termin\u00f3w. Dzi\u0119ki zastosowaniu klas konwertuje te\u017c \u201ewypowiedziane\u201d liczby, adresy czy daty do zapisu docelowego (np. <\/span>pi\u0119\u0107dziesi\u0105t trzy<\/span><\/i> zapisze jako <\/span>53<\/span><\/i>).<\/span><\/p>\n\n\n\n W przypadku aplikacji stworzonej w kontenerach, zarz\u0105dzanej z poziomu <\/span>Google Kubernetes Engine<\/span><\/a>, mo\u017cna korzysta\u0107 z us\u0142ugi Speech-to-Text w modelu on-premise (premier\u0119 us\u0142ugi Speech-to-Text On-Prem og\u0142oszono podczas konferencji <\/span>Google Cloud Next \u201820: OnAir<\/span><\/a>). Us\u0142ug\u0119 wdra\u017ca si\u0119 do aplikacji jako kontener, po czym mo\u017cna korzysta\u0107 z niej w lokalnym \u015brodowisku. To rozwi\u0105zanie b\u0119dzie przydatne zw\u0142aszcza w przypadku organizacji, kt\u00f3re musz\u0105 spe\u0142ni\u0107 regulacje prawne i ogranicza\u0107 przetwarzanie w chmurze.<\/span><\/p>\n\n\n\n Zobacz: <\/span>On-premise, chmura prywatna, publiczna, hybrydowa i multi-cloud \u2013 zalety i wady rozwi\u0105za\u0144<\/span><\/a><\/p>\n\n\n\n W us\u0142udze dost\u0119pne s\u0105 r\u00f3\u017cne modele prowadzenia transkrypcji, dopasowane do rodzaju nagra\u0144 czy \u017ar\u00f3de\u0142 d\u017awi\u0119ku. Obecnie dost\u0119pne s\u0105 cztery modele:<\/span><\/p>\n\n\n\n Dzi\u0119ki modelom mo\u017cna dopasowa\u0107 us\u0142ug\u0119 przetwarzania mowy do celu, jaki ma spe\u0142nia\u0107 aplikacja. Inny model zostanie wybrany w przypadku tworzenia platformy do streamingu wyst\u0105pie\u0144, inny do narz\u0119dzia wsparcia agent\u00f3w obs\u0142ugi klienta pracuj\u0105cych na infolinii, a jeszcze inny do obs\u0142ugiwania aplikacji za pomoc\u0105 komend g\u0142osowych.<\/span><\/p>\n\n\n\n Speech-to-Text otwiera wiele mo\u017cliwo\u015bci, a modele prowadzenia transkrypcji pozwalaj\u0105 wykorzysta\u0107 us\u0142ug\u0119 w wielu r\u00f3\u017cnych aplikacja. Zamian\u0119 mowy na tekst mo\u017cna wykorzysta\u0107 mi\u0119dzy innymi w automatyzacji lub wsparciu obs\u0142ugi klienta, prowadzeniu transkrypcji wideo w czasie rzeczywistym czy wydawaniu aplikacji polece\u0144 g\u0142osowych. Oto kilka scenariuszy, w kt\u00f3rych Speech-to-Text odegra g\u0142\u00f3wn\u0105 rol\u0119.<\/span><\/p>\n\n\n\n Speech-to-Text jest jedn\u0105 z bazowych us\u0142ug Contact Center AI<\/a> \u2013 zestawu od Google Cloud s\u0142u\u017c\u0105cego tworzeniu rozwi\u0105za\u0144 obs\u0142ugi klienta z wykorzystaniem sztucznej inteligencji.<\/span><\/p>\n\n\n\n Z pomoc\u0105 Speech-to-Text (oraz innych us\u0142ug z portfolio Contact Center AI) mo\u017cna stworzy\u0107 mi\u0119dzy innymi <\/span>system wsparcia konsultant\u00f3w pracuj\u0105cych na infolinii<\/b> (pomo\u017ce Ci w tym np. narz\u0119dzie Dialogflow<\/a>). System, prowadz\u0105c w czasie rzeczywistym transkrypcj\u0119 rozmowy, analizuj\u0105c dialogi i odczytuj\u0105c intencje klienta, serwuje agentowi obs\u0142ugi potrzebne materia\u0142y i wskaz\u00f3wki, jak dalej prowadzi\u0107 rozmow\u0119. Z u\u017cyciem us\u0142ugi mo\u017cna zbudowa\u0107 <\/span>system IVR<\/b> (<\/span>interactive voice response<\/span><\/i>) \u2013 automatyczne call center, obs\u0142ugiwane g\u0142osowo przez klienta, kt\u00f3re pomo\u017ce rozwi\u0105za\u0107 proste problemy, a w przypadku trudniejszych kwestii przekieruje rozm\u00f3wc\u0119 do konsultanta.<\/span><\/p>\n\n\n\n Zobacz: <\/span>Jak Google Cloud Platform i sztuczna inteligencja wspieraj\u0105 bran\u017c\u0119 e-commerce<\/span><\/a><\/p>\n\n\n\n Speech-to-Text pozwala wdro\u017cy\u0107 polecenia g\u0142osowe i sterowa\u0107 aplikacj\u0105 za pomoc\u0105 mowy. Posiada nawet dedykowany model prowadzenia transkrypcji \u2013 <\/span>ASR: Command and search.<\/span><\/i> Dzi\u0119ki zastosowaniu us\u0142ugi, <\/span>aplikacja mo\u017ce obs\u0142ugiwa\u0107 polecenia g\u0142osowe czy odpowiada\u0107 na pytania<\/b>, na przyk\u0142ad \u201cw\u0142\u0105cz kolejny film z kolejki\u201d, zwi\u0119ksz g\u0142o\u015bno\u015b\u0107\u201d czy \u201csprawd\u017a pogod\u0119 w Bieszczadach na sobot\u0119\u201d. Us\u0142ug\u0119 mo\u017cna zaimplementowa\u0107 te\u017c w aplikacjach wykorzystuj\u0105cych technologie internetu rzeczy (stworzonych np. na <\/span>platformie Google Cloud IoT<\/span><\/a>), co pozwoli u\u017cytkownikom sterowa\u0107 inteligentnymi urz\u0105dzeniami za pomoc\u0105 g\u0142osu.<\/span><\/p>\n\n\n\n Robienie notatek g\u0142osowych jest dla niekt\u00f3rych wybawieniem. Dyktowanie tekstu jest dost\u0119pne ju\u017c w wielu aplikacjach, <\/span>mi\u0119dzy innymi w Dokumentach czy Prezentacjach w Google Workspace (wcze\u015bniej G Suite)<\/b>.<\/span><\/p>\n\n\n\n Speech-to-text pozwala w czasie rzeczywistym dodawa\u0107 napisy do film\u00f3w. Za pomoc\u0105 us\u0142ugi mo\u017cna te\u017c przeprowadzi\u0107 transkrypcj\u0119 nagranego materia\u0142u i zaindeksowa\u0107 tre\u015b\u0107 podcastu czy wyst\u0105pienia, co pozwoli <\/span>zwi\u0119kszy\u0107 zasi\u0119g materia\u0142u<\/b>. Napisy przy filmie wp\u0142yn\u0105 te\u017c <\/span>pozytywnie na do\u015bwiadczenia odbiorc\u00f3w<\/b> \u2013 zdecydowana wi\u0119kszo\u015b\u0107 u\u017cytkownik\u00f3w social media ogl\u0105da filmy bez w\u0142\u0105czonego d\u017awi\u0119ku.<\/span><\/p>\n\n\n\n Speech-to-text jest jedn\u0105 z us\u0142ug, kt\u00f3ra wspiera t\u0142umaczenie \u2013 symultaniczne czy w formie napis\u00f3w dodanych do filmu. To dlatego, \u017ce aplikacja do t\u0142umacze\u0144 najpierw prowadzi transkrypcj\u0119 i t\u0142umaczy tekst, a nie bezpo\u015brednio d\u017awi\u0119k. W efekcie mo\u017cemy <\/span>wy\u015bwietla\u0107 przy filmie w obcym j\u0119zyku polskie lub angielskie napisy <\/b>czy <\/span>korzysta\u0107 z <\/b>t\u0142umacza symultanicznego w Asystencie Google<\/b><\/a>.<\/span><\/p>\n\n\n\n Castbox jest firm\u0105 z Hongkongu \u2013 najwi\u0119ksz\u0105 platform\u0105 podcastow\u0105 w tamtym rejonie (dziennie korzysta z niej ok. 2 miliony u\u017cytkownik\u00f3w). W swojej aplikacji udost\u0119pnia blisko 100 milion\u00f3w nagra\u0144 \u2013 odcink\u00f3w podcast\u00f3w oraz audiobook\u00f3w w ponad 70 j\u0119zykach.<\/span> To, co wyr\u00f3\u017cnia Castbox, to prowadzenie transkrypcji wszystkich udost\u0119pnianych nagra\u0144, indeksowanie tre\u015bci i dawanie mo\u017cliwo\u015bci wyszukiwania fragment\u00f3w konkretnych odcink\u00f3w po frazach i s\u0142owach kluczowych<\/b>.<\/span><\/p>\n\n\n\n Castbox, dzi\u0119ki us\u0142ugom Google Cloud Platform, w ci\u0105gu doby jest w stanie przeprowadzi\u0107 transkrypcj\u0119 ok. 20 godzin nagra\u0144, z 96% skuteczno\u015bci w zamianie mowy na tekst.<\/span><\/p>\n\n\n\n Pierwsze 60 minut w ka\u017cdym miesi\u0105cu jest bezp\u0142atne<\/b>. Powy\u017cej godziny op\u0142aty naliczane s\u0105 za kolejne 15 sekund zu\u017cycia.<\/span><\/p>\n\n\n\n Dla modeli automatycznego rozpoznawania mowy (<\/span>ASR: Default <\/span><\/i>oraz <\/span>ASR: Command and search<\/span><\/i>) jest to <\/span>0,006 $ za 15 sekund<\/b>.<\/span><\/p>\n\n\n\n Dla modeli premium (<\/span>Video <\/span><\/i>oraz <\/span>Phone Call<\/span><\/i>) cena wynosi <\/span>0,009 $ za 15 sekund<\/b>.<\/span><\/p>\n\n\n FOTC to wsparcie 24\/7, zni\u017cki na us\u0142ugi GCP<\/p><\/div>\r\n \u017beby zaimplementowa\u0107 Speech-to-Text nale\u017cy wykorzysta\u0107 Google Cloud API<\/a>, a do tego potrzebne b\u0119dzie Ci konto na platformie Google Cloud.<\/span><\/p>\n\n\n\n Tutaj zobaczysz <\/span>jak za\u0142o\u017cy\u0107 konto na GCP<\/span><\/a>.<\/span><\/p>\n\n\n\n
<\/a><\/figure>\n\n\n\nUs\u0142uga Speech-to-Text od Google Cloud \u2013 co to jest?<\/span><\/h2>\n\n\n\n
Modele zamiany mowy na tekst w us\u0142udze Speech-to-Text<\/span><\/h2>\n\n\n\n
Sposoby wykorzystania us\u0142ugi przetwarzania mowy na tekst<\/span><\/h2>\n\n\n\n
Wsparcie obs\u0142ugi klienta<\/span><\/h3>\n\n\n\n
Sterowanie za pomoc\u0105 g\u0142osu<\/span><\/h3>\n\n\n\n
Pisanie g\u0142osowe<\/span><\/h3>\n\n\n\n
Transkrypcja multimedi\u00f3w<\/span><\/h3>\n\n\n\n
T\u0142umaczenia<\/span><\/h3>\n\n\n\n
Przyk\u0142ad wykorzystania Speech-to-Text przez Castbox \u2013 platform\u0119 z podcastami<\/span><\/h3>\n\n\n\n
Ile kosztuje Speech-to-Text w GCP?<\/span><\/h2>\n\n\n\n
\r\n <\/div>\r\n <\/div>\r\n Speech-to-Text TUTORIAL<\/h2>\n\n\n\n