{"id":31247,"date":"2020-09-18T13:22:42","date_gmt":"2020-09-18T11:22:42","guid":{"rendered":"https:\/\/fotc.com\/?p=31247"},"modified":"2023-11-27T08:18:43","modified_gmt":"2023-11-27T07:18:43","slug":"speech-to-text-gcp-tutorial","status":"publish","type":"post","link":"https:\/\/fotc.com\/pl\/blog\/speech-to-text-gcp-tutorial\/","title":{"rendered":"Speech to text, czyli zamiana mowy na tekst [Tutorial]"},"content":{"rendered":"\n<div class=\"wp-block-yoast-seo-table-of-contents yoast-table-of-contents collapsed\"><h2> Spis tre\u015bci <\/h2><ul><li><a href=\"#h-us-uga-speech-to-text-od-google-cloud-co-to-jest\" data-level=\"2\">Us\u0142uga Speech-to-Text od Google Cloud \u2013 co to jest?<\/a><\/li><li><a href=\"#h-modele-zamiany-mowy-na-tekst-w-us-udze-speech-to-text\" data-level=\"2\">Modele zamiany mowy na tekst w us\u0142udze Speech-to-Text<\/a><\/li><li><a href=\"#h-sposoby-wykorzystania-us-ugi-przetwarzania-mowy-na-tekst\" data-level=\"2\">Sposoby wykorzystania us\u0142ugi przetwarzania mowy na tekst<\/a><ul><li><a href=\"#h-wsparcie-obs-ugi-klienta\" data-level=\"3\">Wsparcie obs\u0142ugi klienta<\/a><\/li><li><a href=\"#h-sterowanie-za-pomoc-g-osu\" data-level=\"3\">Sterowanie za pomoc\u0105 g\u0142osu<\/a><\/li><li><a href=\"#h-pisanie-g-osowe\" data-level=\"3\">Pisanie g\u0142osowe<\/a><\/li><li><a href=\"#h-transkrypcja-multimedi-w\" data-level=\"3\">Transkrypcja multimedi\u00f3w<\/a><\/li><li><a href=\"#h-t-umaczenia\" data-level=\"3\">T\u0142umaczenia<\/a><\/li><li><a href=\"#h-przyk-ad-wykorzystania-speech-to-text-przez-castbox-platform-z-podcastami\" data-level=\"3\">Przyk\u0142ad wykorzystania Speech-to-Text przez Castbox \u2013 platform\u0119 z podcastami<\/a><\/li><\/ul><\/li><li><a href=\"#h-ile-kosztuje-speech-to-text-w-gcp\" data-level=\"2\">Ile kosztuje Speech-to-Text w GCP?<\/a><\/li><li><a href=\"#h-speech-to-text-tutorial\" data-level=\"2\">Speech-to-Text TUTORIAL<\/a><\/li><\/ul><\/div>\n\n\n\n<p><span>Trakskrypcja mowy na tekst to prze\u0142omowa technologia, kt\u00f3ra zwi\u0119ksza mo\u017cliwo\u015bci codziennej interakcji cz\u0142owieka z maszyn\u0105. Technologia pozwala komputerom rozpoznawa\u0107 mow\u0119 i reagowa\u0107 na wypowiedziane polecenia. A to przek\u0142ada si\u0119 na automatyzacj\u0119 wielu czynno\u015bci, powstawanie narz\u0119dzi zwi\u0119kszaj\u0105cych produktywno\u015b\u0107 czy system\u00f3w wspieraj\u0105cych obs\u0142ug\u0119 klienta.<\/span><\/p>\n\n\n\n<figure class=\"wp-block-image\"><a href=\"https:\/\/fotc.com\/pl\/ebooks\/10-mitow-o-chmurze\/\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/10-mitow-o-chmurze_ebook_banner-1024x209.png\" alt=\"10 mit\u00f3w o chmurze ebook\" class=\"wp-image-56883\"\/><\/a><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-us-uga-speech-to-text-od-google-cloud-co-to-jest\"><span>Us\u0142uga Speech-to-Text od Google Cloud \u2013 co to jest?<\/span><\/h2>\n\n\n\n<p><span>Speech-to-Text (przez niekt\u00f3rych nazywane Voice-to-Text) to jedna z us\u0142ug <\/span><a href=\"https:\/\/fotc.com\/pl\/google-cloud-platform\/\"><span>Google Cloud Platform<\/span><\/a><span>. <\/span><b>Us\u0142uga s\u0142u\u017cy do zautomatyzowanej konwersji mowy na tekst, czyli prowadzenia transkrypcji<\/b><span>. Wykorzystuje zaawansowane modele uczenia maszynowego od Google i pozwala prowadzi\u0107 transkrypcj\u0119 w<\/span><b> ponad 125 j\u0119zykach i dialektach<\/b><span>. Us\u0142uga Speech-to-Text jest <\/span><b>udost\u0119pniana jako API<\/b><span> (interfejs programowania aplikacji, kt\u00f3ry umo\u017cliwia \u0142\u0105czenie systemu z funkcjonuj\u0105cym narz\u0119dziem i wykorzystywanie jego funkcji we w\u0142asnej aplikacji). Dzi\u0119ki temu ju\u017c dzia\u0142aj\u0105c\u0105 i sprawdzon\u0105 us\u0142ug\u0119 mo\u017cna zaimplementowa\u0107 relatywnie niskim kosztem w dowolnym produkcie (po uprzednim dostosowaniu aplikacji do wymaga\u0144 technicznych).<\/span><\/p>\n\n\n\n<p><span>Speech-to-Text mo\u017ce przetwarza\u0107 mow\u0119 na dwa sposoby:<\/span><\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><span>w czasie rzeczywistym, w momencie<\/span><b> gdy u\u017cytkownik m\u00f3wi do aplikacji<\/b><span> z aktywn\u0105 us\u0142ug\u0105,<\/span><\/li><li><span>lub prowadzi\u0107 transkrypcj\u0119 mowy <\/span><b>z przes\u0142anego pliku audio lub wideo<\/b><span>.<\/span><\/li><\/ul>\n\n\n\n<p><span>Us\u0142uga radzi sobie z transkrypcj\u0105 nawet mocno bran\u017cowych zwrot\u00f3w i termin\u00f3w. Dzi\u0119ki zastosowaniu klas konwertuje te\u017c \u201ewypowiedziane\u201d liczby, adresy czy daty do zapisu docelowego (np. <\/span><i><span>pi\u0119\u0107dziesi\u0105t trzy<\/span><\/i><span> zapisze jako <\/span><i><span>53<\/span><\/i><span>).<\/span><\/p>\n\n\n\n<p><span>W przypadku aplikacji stworzonej w kontenerach, zarz\u0105dzanej z poziomu <\/span><a href=\"https:\/\/fotc.com\/pl\/blog\/kubernetes-tutorial\/\"><span>Google Kubernetes Engine<\/span><\/a><span>, mo\u017cna korzysta\u0107 z us\u0142ugi Speech-to-Text w modelu on-premise (premier\u0119 us\u0142ugi Speech-to-Text On-Prem og\u0142oszono podczas konferencji <\/span><a href=\"https:\/\/fotc.com\/pl\/blog\/google-cloud-next-2020-aktualizacje\/\"><span>Google Cloud Next \u201820: OnAir<\/span><\/a><span>). Us\u0142ug\u0119 wdra\u017ca si\u0119 do aplikacji jako kontener, po czym mo\u017cna korzysta\u0107 z niej w lokalnym \u015brodowisku. To rozwi\u0105zanie b\u0119dzie przydatne zw\u0142aszcza w przypadku organizacji, kt\u00f3re musz\u0105 spe\u0142ni\u0107 regulacje prawne i ogranicza\u0107 przetwarzanie w chmurze.<\/span><\/p>\n\n\n\n<p><span>Zobacz: <\/span><a href=\"https:\/\/fotc.com\/pl\/blog\/on-premise-private-public-hybrid-multi-cloud-zalety-wady\/\"><span>On-premise, chmura prywatna, publiczna, hybrydowa i multi-cloud \u2013 zalety i wady rozwi\u0105za\u0144<\/span><\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-modele-zamiany-mowy-na-tekst-w-us-udze-speech-to-text\"><span>Modele zamiany mowy na tekst w us\u0142udze Speech-to-Text<\/span><\/h2>\n\n\n\n<p><span>W us\u0142udze dost\u0119pne s\u0105 r\u00f3\u017cne modele prowadzenia transkrypcji, dopasowane do rodzaju nagra\u0144 czy \u017ar\u00f3de\u0142 d\u017awi\u0119ku. Obecnie dost\u0119pne s\u0105 cztery modele:<\/span><\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><b>domy\u015blne automatyczne rozpoznawanie mowy <\/b><span>(<\/span><i><span>ASR: Default<\/span><\/i><span>) \u2013 mo\u017cna wykorzysta\u0107 ten model do prowadzenia transkrypcji d\u0142u\u017cszych nagra\u0144 zawieraj\u0105cych g\u0142os jednego m\u00f3wcy; model najlepiej sprawdza si\u0119 w przypadku nagra\u0144 o cz\u0119stotliwo\u015bci 16 000 Hz lub wy\u017cszej,<\/span><\/li><li><b>automatyczne rozpoznawanie mowy dla polece\u0144 i wyszukiwania <\/b><span>(<\/span><i><span>ASR: Command and search<\/span><\/i><span>) \u2013 model dedykowany transkrypcji kr\u00f3tkich nagra\u0144, na przyk\u0142ad polece\u0144 g\u0142osowych wysy\u0142anych do aplikacji,<\/span><\/li><li><b>transkrypcja wideo <\/b><span>(<\/span><i><span>Video<\/span><\/i><span>) \u2013 model przetwarzania mowy na tekst z materia\u0142\u00f3w wideo, w kt\u00f3rych zarejestrowanych jest wielu m\u00f3wc\u00f3w; najlepiej obs\u0142uguje nagrania lub streamingi o cz\u0119stotliwo\u015bci 16 000 Hz lub wy\u017cszej; jest to model premium i jego koszt jest wy\u017cszy ni\u017c modeli automatycznego rozpoznawania mowy ASR,<\/span><\/li><li><b>zapis rozmowy telefonicznej <\/b><span>(<\/span><i><span>Phone call<\/span><\/i><span>) \u2013 model przeznaczony do prowadzenia transkrypcji rozm\u00f3w wykonywanych przez telefon; najlepiej obs\u0142uguje nagrania o cz\u0119stotliwo\u015bci 8000 Hz; jest to model premium, dro\u017cszy ni\u017c modele ASR.<\/span><\/li><\/ul>\n\n\n\n<p><span>Dzi\u0119ki modelom mo\u017cna dopasowa\u0107 us\u0142ug\u0119 przetwarzania mowy do celu, jaki ma spe\u0142nia\u0107 aplikacja. Inny model zostanie wybrany w przypadku tworzenia platformy do streamingu wyst\u0105pie\u0144, inny do narz\u0119dzia wsparcia agent\u00f3w obs\u0142ugi klienta pracuj\u0105cych na infolinii, a jeszcze inny do obs\u0142ugiwania aplikacji za pomoc\u0105 komend g\u0142osowych.<\/span><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-sposoby-wykorzystania-us-ugi-przetwarzania-mowy-na-tekst\"><span>Sposoby wykorzystania us\u0142ugi przetwarzania mowy na tekst<\/span><\/h2>\n\n\n\n<p><span>Speech-to-Text otwiera wiele mo\u017cliwo\u015bci, a modele prowadzenia transkrypcji pozwalaj\u0105 wykorzysta\u0107 us\u0142ug\u0119 w wielu r\u00f3\u017cnych aplikacja. Zamian\u0119 mowy na tekst mo\u017cna wykorzysta\u0107 mi\u0119dzy innymi w automatyzacji lub wsparciu obs\u0142ugi klienta, prowadzeniu transkrypcji wideo w czasie rzeczywistym czy wydawaniu aplikacji polece\u0144 g\u0142osowych. Oto kilka scenariuszy, w kt\u00f3rych Speech-to-Text odegra g\u0142\u00f3wn\u0105 rol\u0119.<\/span><\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-wsparcie-obs-ugi-klienta\"><span>Wsparcie obs\u0142ugi klienta<\/span><\/h3>\n\n\n\n<p><span>Speech-to-Text jest jedn\u0105 z bazowych us\u0142ug <a href=\"https:\/\/fotc.com\/pl\/blog\/contact-center-ai\/\" target=\"_blank\" aria-label=\"Contact Center AI (opens in a new tab)\" rel=\"noreferrer noopener\" class=\"ek-link\">Contact Center AI<\/a> \u2013 zestawu od Google Cloud s\u0142u\u017c\u0105cego tworzeniu rozwi\u0105za\u0144 obs\u0142ugi klienta z wykorzystaniem sztucznej inteligencji.<\/span><\/p>\n\n\n\n<p><span>Z pomoc\u0105 Speech-to-Text (oraz innych us\u0142ug z portfolio Contact Center AI) mo\u017cna stworzy\u0107 mi\u0119dzy innymi <\/span><b>system wsparcia konsultant\u00f3w pracuj\u0105cych na infolinii<\/b><span> (pomo\u017ce Ci w tym np. narz\u0119dzie <a href=\"https:\/\/fotc.com\/pl\/blog\/dialogflow\/\" target=\"_blank\" aria-label=\"Dialogflow (opens in a new tab)\" rel=\"noreferrer noopener\" class=\"ek-link\">Dialogflow<\/a>). System, prowadz\u0105c w czasie rzeczywistym transkrypcj\u0119 rozmowy, analizuj\u0105c dialogi i odczytuj\u0105c intencje klienta, serwuje agentowi obs\u0142ugi potrzebne materia\u0142y i wskaz\u00f3wki, jak dalej prowadzi\u0107 rozmow\u0119. Z u\u017cyciem us\u0142ugi mo\u017cna zbudowa\u0107 <\/span><b>system IVR<\/b><span> (<\/span><i><span>interactive voice response<\/span><\/i><span>) \u2013 automatyczne call center, obs\u0142ugiwane g\u0142osowo przez klienta, kt\u00f3re pomo\u017ce rozwi\u0105za\u0107 proste problemy, a w przypadku trudniejszych kwestii przekieruje rozm\u00f3wc\u0119 do konsultanta.<\/span><\/p>\n\n\n\n<p><span>Zobacz: <\/span><a href=\"https:\/\/fotc.com\/pl\/blog\/google-cloud-platform-sztuczna-inteligencja-ecommerce\/\"><span>Jak Google Cloud Platform i sztuczna inteligencja wspieraj\u0105 bran\u017c\u0119 e-commerce<\/span><\/a><\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-sterowanie-za-pomoc-g-osu\"><span>Sterowanie za pomoc\u0105 g\u0142osu<\/span><\/h3>\n\n\n\n<p><span>Speech-to-Text pozwala wdro\u017cy\u0107 polecenia g\u0142osowe i sterowa\u0107 aplikacj\u0105 za pomoc\u0105 mowy. Posiada nawet dedykowany model prowadzenia transkrypcji \u2013 <\/span><i><span>ASR: Command and search.<\/span><\/i><span> Dzi\u0119ki zastosowaniu us\u0142ugi, <\/span><b>aplikacja mo\u017ce obs\u0142ugiwa\u0107 polecenia g\u0142osowe czy odpowiada\u0107 na pytania<\/b><span>, na przyk\u0142ad \u201cw\u0142\u0105cz kolejny film z kolejki\u201d, zwi\u0119ksz g\u0142o\u015bno\u015b\u0107\u201d czy \u201csprawd\u017a pogod\u0119 w Bieszczadach na sobot\u0119\u201d. Us\u0142ug\u0119 mo\u017cna zaimplementowa\u0107 te\u017c w aplikacjach wykorzystuj\u0105cych technologie internetu rzeczy (stworzonych np. na <\/span><a href=\"https:\/\/fotc.com\/pl\/blog\/gcp-rozwiazania-dla-przemyslu\/#Google_Cloud_IoT_platforma_do_rozwoju_internetu_rzeczy\"><span>platformie Google Cloud IoT<\/span><\/a><span>), co pozwoli u\u017cytkownikom sterowa\u0107 inteligentnymi urz\u0105dzeniami za pomoc\u0105 g\u0142osu.<\/span><\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-pisanie-g-osowe\"><span>Pisanie g\u0142osowe<\/span><\/h3>\n\n\n\n<p><span>Robienie notatek g\u0142osowych jest dla niekt\u00f3rych wybawieniem. Dyktowanie tekstu jest dost\u0119pne ju\u017c w wielu aplikacjach, <\/span><b>mi\u0119dzy innymi w Dokumentach czy Prezentacjach w Google Workspace (wcze\u015bniej G Suite)<\/b><span>.<\/span><\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-transkrypcja-multimedi-w\"><span>Transkrypcja multimedi\u00f3w<\/span><\/h3>\n\n\n\n<p><span>Speech-to-text pozwala w czasie rzeczywistym dodawa\u0107 napisy do film\u00f3w. Za pomoc\u0105 us\u0142ugi mo\u017cna te\u017c przeprowadzi\u0107 transkrypcj\u0119 nagranego materia\u0142u i zaindeksowa\u0107 tre\u015b\u0107 podcastu czy wyst\u0105pienia, co pozwoli <\/span><b>zwi\u0119kszy\u0107 zasi\u0119g materia\u0142u<\/b><span>. Napisy przy filmie wp\u0142yn\u0105 te\u017c <\/span><b>pozytywnie na do\u015bwiadczenia odbiorc\u00f3w<\/b><span> \u2013 zdecydowana wi\u0119kszo\u015b\u0107 u\u017cytkownik\u00f3w social media ogl\u0105da filmy bez w\u0142\u0105czonego d\u017awi\u0119ku.<\/span><\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-t-umaczenia\"><span>T\u0142umaczenia<\/span><\/h3>\n\n\n\n<p><span>Speech-to-text jest jedn\u0105 z us\u0142ug, kt\u00f3ra wspiera t\u0142umaczenie \u2013 symultaniczne czy w formie napis\u00f3w dodanych do filmu. To dlatego, \u017ce aplikacja do t\u0142umacze\u0144 najpierw prowadzi transkrypcj\u0119 i t\u0142umaczy tekst, a nie bezpo\u015brednio d\u017awi\u0119k. W efekcie mo\u017cemy <\/span><b>wy\u015bwietla\u0107 przy filmie w obcym j\u0119zyku polskie lub angielskie napisy <\/b><span>czy <\/span><b>korzysta\u0107 z <\/b><a href=\"https:\/\/fotc.com\/pl\/blog\/tlumacz-symultaniczny-asystent-google\/\"><b>t\u0142umacza symultanicznego w Asystencie Google<\/b><\/a><span>.<\/span><\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-przyk-ad-wykorzystania-speech-to-text-przez-castbox-platform-z-podcastami\"><span>Przyk\u0142ad wykorzystania Speech-to-Text przez Castbox \u2013 platform\u0119 z podcastami<\/span><\/h3>\n\n\n\n<p><span>Castbox jest firm\u0105 z Hongkongu \u2013 najwi\u0119ksz\u0105 platform\u0105 podcastow\u0105 w tamtym rejonie (dziennie korzysta z niej ok. 2 miliony u\u017cytkownik\u00f3w). W swojej aplikacji udost\u0119pnia blisko 100 milion\u00f3w nagra\u0144 \u2013 odcink\u00f3w podcast\u00f3w oraz audiobook\u00f3w w ponad 70 j\u0119zykach.<\/span><b> To, co wyr\u00f3\u017cnia Castbox, to prowadzenie transkrypcji wszystkich udost\u0119pnianych nagra\u0144, indeksowanie tre\u015bci i dawanie mo\u017cliwo\u015bci wyszukiwania fragment\u00f3w konkretnych odcink\u00f3w po frazach i s\u0142owach kluczowych<\/b><span>.<\/span><\/p>\n\n\n\n<p><span>Castbox, dzi\u0119ki us\u0142ugom Google Cloud Platform, w ci\u0105gu doby jest w stanie przeprowadzi\u0107 transkrypcj\u0119 ok. 20 godzin nagra\u0144, z 96% skuteczno\u015bci w zamianie mowy na tekst.<\/span><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-ile-kosztuje-speech-to-text-w-gcp\"><span>Ile kosztuje Speech-to-Text w GCP?<\/span><\/h2>\n\n\n\n<p><b>Pierwsze 60 minut w ka\u017cdym miesi\u0105cu jest bezp\u0142atne<\/b><span>. Powy\u017cej godziny op\u0142aty naliczane s\u0105 za kolejne 15 sekund zu\u017cycia.<\/span><\/p>\n\n\n\n<p><span>Dla modeli automatycznego rozpoznawania mowy (<\/span><i><span>ASR: Default <\/span><\/i><span>oraz <\/span><i><span>ASR: Command and search<\/span><\/i><span>) jest to <\/span><b>0,006 $ za 15 sekund<\/b><span>.<\/span><\/p>\n\n\n\n<p><span>Dla modeli premium (<\/span><i><span>Video <\/span><\/i><span>oraz <\/span><i><span>Phone Call<\/span><\/i><span>) cena wynosi <\/span><b>0,009 $ za 15 sekund<\/b><span>.<\/span><\/p>\n\n\n<div class=\"bg-yellow banners mt-4 mb-4\">\r\n  <div class=\"container \">\r\n    <div class=\"row sw\">\r\n        <div class=\"col-md-7 sw col-12 mb-md-0\">\r\n        <span style=\"margin-bottom: 1rem;\r\n    font-weight: 500;margin-top: 25px;\r\n    line-height: 1.1;\r\n    font-size: 2rem; display: block; color:#fff\">Testuj Speech-to-Text d\u0142u\u017cej za darmo<\/span>\r\n        <\/div>\r\n        <div class=\"col-md-5 sw sww\">\r\n        <img decoding=\"async\" style=\"margin-top:25px;\" src=\"\/app\/uploads\/2023\/02\/FOTC-LOGO-WWW-RGB-RED-2.png\">\r\n        <\/div>\r\n        <\/div>\r\n        <div class=\"row\">\r\n          <div class=\"col-md-7\"><p style=\"color:#fff\">FOTC to wsparcie 24\/7, zni\u017cki na us\u0142ugi GCP<\/p><\/div>\r\n        <div class=\"col-md-5 col-12 text-cent-right\">\r\n        <a class=\"newbtn bannerbtn\" href=\"https:\/\/fotc.com\/pl\/kontakt\/\">Zapytaj o szczeg\u00f3\u0142y<\/a>\r\n        \r\n        <\/div>\r\n    <\/div>\r\n  <\/div>\r\n<\/div>\n\n\n<h2 class=\"wp-block-heading\" id=\"h-speech-to-text-tutorial\">Speech-to-Text TUTORIAL<\/h2>\n\n\n\n<p><span>\u017beby zaimplementowa\u0107 Speech-to-Text nale\u017cy wykorzysta\u0107 <a href=\"https:\/\/fotc.com\/pl\/blog\/google-cloud-api\/\" target=\"_blank\" aria-label=\"Google Cloud API (opens in a new tab)\" rel=\"noreferrer noopener\" class=\"ek-link\">Google Cloud API<\/a>, a do tego potrzebne b\u0119dzie Ci konto na platformie Google Cloud.<\/span><\/p>\n\n\n\n<p><span>Tutaj zobaczysz <\/span><a href=\"https:\/\/fotc.com\/pl\/blog\/konto-gcp-rejestracja-konfiguracja\/\"><span>jak za\u0142o\u017cy\u0107 konto na GCP<\/span><\/a><span>.<\/span><\/p>\n\n\n\n<p><span>Przejd\u017a do <\/span><a href=\"https:\/\/console.cloud.google.com\/\" rel=\"nofollow\"><span>konsoli<\/span><\/a><span>. Stw\u00f3rz nowy projekt i zapami\u0119taj jego ID.<\/span><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/image8.png\" alt=\"Speech to text - tworzenie nowego projektu\" class=\"wp-image-43626\"\/><\/figure>\n\n\n\n<p><span>Z paska bocznego (menu po lewej stronie) wybierz <\/span><i><span>APIs &amp; Services \/ Dashboard.<\/span><\/i><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/image9-e1600437455764.png\" alt=\"Wyb\u00f3r Dashboard z lisy APIs i Services\" class=\"wp-image-43633\"\/><\/figure>\n\n\n\n<p><span>Wybierz <\/span><i><span>ENABLE APIS AND SERVICES.<\/span><\/i><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/image2-e1600437481310.png\" alt=\"Przycisk enable apis and services\" class=\"wp-image-43584\"\/><\/figure>\n\n\n\n<p><span>Wyszukaj <\/span><i><span>Cloud Speech API.<\/span><\/i><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/image6-1024x575.png\" alt=\"Wyszukanie cloud speech api z listy api\" class=\"wp-image-43612\"\/><\/figure>\n\n\n\n<p><span>Kliknij <\/span><i><span>Enable<\/span><\/i><span> i zaczekaj kilka sekund.<\/span><\/p>\n\n\n\n<p><span>Uruchom Cloud Shell. \u017beby aktywowa\u0107 Cloud Shell, kliknij ikonk\u0119 w prawym g\u00f3rnym rogu na pasku.<\/span><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/image5-1.png\" alt=\"Oznaczenie ikony cloud shell\" class=\"wp-image-43605\"\/><\/figure>\n\n\n\n<p>Zaczekaj a\u017c uruchomi si\u0119 projekt <em><span>user@project:~$.<\/span><\/em><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/image4-1024x225.png\" alt=\"Widok cloud shell\" class=\"wp-image-43598\"\/><\/figure>\n\n\n\n<p><span>Nast\u0119pnie wygeneruj klucz API do przekazywania \u017c\u0105da\u0144. \u017beby utworzy\u0107 klucz, przejd\u017a do <\/span><i><span>APIs &amp; Services \u2013 Credentials.<\/span><\/i><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/image7.png\" alt=\"Wygenerowanie klucza API\" class=\"wp-image-43619\"\/><\/figure>\n\n\n\n<p><span>Wybierz<\/span><i><span>Create credentials <\/span><\/i><span>i w rozwijanym menu kliknij <\/span><i><span>API key<\/span><\/i><span>.<\/span><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/image1-1.png\" alt=\"Wygenerowanie klucza API\" class=\"wp-image-43577\"\/><\/figure>\n\n\n\n<p><span>Skopiuj klucz, kt\u00f3ry w\u0142a\u015bnie zosta\u0142 wygenerowany. W Cloudshell wstaw komend\u0119 <\/span><i><span>export<\/span><\/i><span>. Zamie\u0144 <\/span><i><span>your_api_key<\/span><\/i><span> na Twoj wygenerowany klucz.<\/span><\/p>\n\n\n<pre class=\"brush: xml; title: ; notranslate\" title=\"\">export API_KEY= YOUR_API_KEY<\/pre>\n\n\n\n<p><span>\u017b\u0105danie do interfejsu API us\u0142ugi mo\u017cesz zbudowa\u0107 w pliku <\/span><i><span>request.json<\/span><\/i><span>. \u017beby stworzy\u0107 ten plik, mo\u017cesz skorzysta\u0107 z wbudowanego w Cloud Shell edytora kodu: <\/span><\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/fotc.com\/app\/uploads\/2021\/08\/image3.png\" alt=\"Uruchamienie edytora tekstu w Cloud Shell\" class=\"wp-image-43591\"\/><\/figure>\n\n\n\n<p><span>Utw\u00f3rz plik o nazwie <\/span><i><span>request.json<\/span><\/i><span> w katalogu domowym i dodaj nast\u0119puj\u0105ce elementy:<\/span><\/p>\n\n\n<pre class=\"brush: xml; title: ; notranslate\" title=\"\">{\nconfig {\nencoding:FLAC, languageCode: en-US\n}audio: {\nuri: gs:\/\/cloud-samples-tests\/speech\/brooklyn.flac\n}\n}\n<\/pre>\n\n\n\n<p><span>W konsoli wpisz poni\u017csz\u0105 komend\u0119 (w jednej linii):<\/span><\/p>\n\n\n<pre class=\"brush: xml; title: ; notranslate\" title=\"\">curl -s -X POST -H Content-Type: application\/json --data-binary @request.json https:\/\/speech.googleapis.com\/v1\/speech:recognize?key=${API_KEY}<\/pre>\n\n\n\n<p>Odpowied\u017a powinna wygl\u0105da\u0107 nast\u0119puj\u0105co:<\/p>\n\n\n<pre class=\"brush: xml; title: ; notranslate\" title=\"\">{\nresults: &#x5B;\n{\nalternatives: &#x5B;\n{\ntranscript: how old is the Brooklyn Bridge, confidence: 0.98267895\n}\n]\n}\n]\n}<\/pre>\n\n\n\n<p><span>Warto\u015b\u0107 <\/span><i><span>transcript<\/span><\/i><span> zawiera stworzon\u0105 przez us\u0142ug\u0119 transkrypcj\u0119 pliku d\u017awi\u0119kowego <\/span><i><span>brooklyn.flac<\/span><\/i><span>. <\/span><i><span>Confidence<\/span><\/i><span> wskazuje, z jakim prawdopodobie\u0144stwem API prawid\u0142owo rozpozna\u0142o i przetworzy\u0142o mow\u0119 na tekst.<\/span><\/p>\n\n\n\n<p><span>I to wszystko! W taki spos\u00f3b dzia\u0142a API Speech-to-Text.<\/span><\/p>\n\n\n\n<p><a href=\"https:\/\/fotc.com\/pl\/google-cloud-platform\/\"><span><strong>Dowiedz si\u0119 wi\u0119cej o Google Cloud Platform<\/strong><\/span><\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Trakskrypcja mowy na tekst to prze\u0142omowa technologia, kt\u00f3ra zwi\u0119ksza mo\u017cliwo\u015bci codziennej interakcji cz\u0142owieka z maszyn\u0105. Technologia pozwala komputerom rozpoznawa\u0107 mow\u0119 i reagowa\u0107 na wypowiedziane polecenia. A to przek\u0142ada si\u0119 na automatyzacj\u0119 wielu czynno\u015bci, powstawanie narz\u0119dzi zwi\u0119kszaj\u0105cych produktywno\u015b\u0107 czy system\u00f3w wspieraj\u0105cych obs\u0142ug\u0119 klienta. Us\u0142uga Speech-to-Text od Google Cloud \u2013 co to jest? Speech-to-Text (przez niekt\u00f3rych nazywane&#8230;<\/p>\n","protected":false},"author":13,"featured_media":75166,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_editorskit_title_hidden":false,"_editorskit_reading_time":6,"_editorskit_is_block_options_detached":false,"_editorskit_block_options_position":"{}","footnotes":""},"categories":[560],"tags":[139],"class_list":["post-31247","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-google-cloud-platform-pl","tag-tutorial"],"_links":{"self":[{"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/posts\/31247","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/users\/13"}],"replies":[{"embeddable":true,"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/comments?post=31247"}],"version-history":[{"count":0,"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/posts\/31247\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/media\/75166"}],"wp:attachment":[{"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/media?parent=31247"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/categories?post=31247"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/fotc.com\/pl\/wp-json\/wp\/v2\/tags?post=31247"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}