Analityka  - Grudzień 4, 2020

Wykorzystanie interfejsów głosowych do budowania pozytywnych doświadczeń z marką

Katarzyna Dumała 5 min czytania

Tekst w pełnej wersji ukazał się na łamach raportu Spicy Mobile "We are connected": https://spicymobile.pl/raport.

Rozwiązania oparte o interfejsy głosowe są z roku na rok obecne na coraz większej liczbie urządzeń i coraz lepiej radzą sobie ze zrozumieniem komunikatów od użytkowników. Jednak wykorzystanie ich w komunikacji z markami - przynajmniej w Polsce - nadal należy do rzadkości. Nie widzimy na tym polu rewolucji, ale dość ostrożne działania i wyczekiwanie na moment, gdy klienci, a więc potencjalni użytkownicy, będą bardziej otwarci na głosowe interakcje. Czy ta strategia jest słuszna? Czy opłaca się wstrzymywać? A może powtórzy się historia z czekaniem na “rok mobile”? Zanim odpowiemy na te pytania, zacznijmy od podstaw.

Czym jest interfejs głosowy? 

Interfejs głosowy pozwala komunikować się z urządzeniami za pośrednictwem języka naturalnego (w odróżnieniu od interfejsów tekstowych czy graficznych). Interfejsy głosowe, z którymi mamy do czynienia obecnie, umożliwiają nie tylko wydawanie poleceń głosowych. Ich twórcy, wykorzystując uczenie maszynowe i NLP (przetwarzanie języka naturalnego) są w stanie budować interfejsy zdolne wchodzić z rozmówcą w interakcję zbliżoną jakością do interakcji między ludźmi. Aby było to możliwe, platforma “obsługująca” konwersację wychodzi daleko poza fonetyczne rozumienie słów. Bierze pod uwagę również części mowy, konstrukcję zdania, kontekst rozmowy oraz wieloznaczność poszczególnych słów (w danym zdaniu oraz w poszczególnych językach). W związku z tym użytkownik nie musi posiadać specjalistycznej wiedzy, żeby taką rozmowę nawiązać.

Czy rozumienie komunikatu wystarczy?

Warto jednak podkreślić, że rozumienie komunikatu to tylko część wyzwania, które stoi przed interfejsem głosowym. Obecnie ma on nie tylko rozumieć, ale też zwracać relewantną odpowiedź, często posiłkując się przy tym zewnętrznymi informacjami. Innymi słowy interfejs komunikuje się nie tylko z użytkownikiem końcowym, ale w czasie prowadzonej konwersacji łączy się (w czasie rzeczywistym) również ze wskazanymi bazami danych, z których pobiera informacje potrzebne do udzielenia odpowiedzi. Czy mamy już do czynienia ze sztuczną inteligencją? Nie, na to przyjdzie nam jeszcze trochę poczekać. Ale patrząc na tempo rozwoju i możliwości interfejsów głosowych, dostajemy przedsmak rozwiązań, które kilkanaście lat temu znaliśmy wyłącznie z filmów science-fiction.

Najpopularniejsi asystenci głosowi

Pierwszym dużym graczem, który umożliwił powszechne korzystanie z interfejsów głosowych był Apple. W 2011 roku premierę miał iPhone 4 z Siri - inteligentnym, osobistym asystentem. Obecnie Siri dostępna jest na niemal każdym urządzeniu Apple - iPhonie, Macu, iPadzie, zegarku Apple Watch, słuchawkach AirPods itd. Jednak obecnie gracze o największych udziałach w rynku to Asystent Google oraz Alexa zbudowana przez Amazon. Jest też projekt Microsoftu - Cortana, który wg. oficjalnych informacji nie będzie już rozwijany jako pełnoprawny asystent głosowy skierowany do prywatnego odbiorcy, oraz Bixby od Samsunga. Ten ostatni zadebiutował w 2017 roku i jak do tej pory nie przebił się na rynku, zadowalając się zaledwie kilku procentowym udziałem.

Polski asystent głosowy

Jedynym asystentem głosowym posiadającym polską wersję językową jest jak na razie Asystent Google, który polską premierę miał w styczniu 2019 r. Obecnie nie ma oficjalnych informacji o innych producentach planujących wprowadzenie na rodzimy rynek dedykowanej wersji językowej swojego rozwiązania. W związku z tym, jeśli zastanawiamy się nad rozwijaniem komunikacji marki za pośrednictwem asystenta głosowego, najlepiej przyjrzeć się właśnie Asystentowi Google. Dostępny jest on na niemal wszystkich urządzeniach korzystających z systemu Android:  znakomitej większości smartfonów, nowych modelach słuchawek, inteligentnych głośnikach, smart TV, urządzeniach typu wearable (z Wear OS by Google) czy samochodach (chociażby przy użyciu Android Auto). Jeszcze rok temu, aby z niego korzystać należało pobrać z Google Play oddzielną aplikację. Obecnie Asystent Google staje się natywnym rozwiązaniem w nowych wersjach Androida, przejmuje również funkcję wyszukiwania głosowego w przeglądarce Google. Tyle, jeśli chodzi o dostępność.

Jakie są możliwości asystenta głosowego

Oprócz prostych zadań, których obsługi zapewne się spodziewamy, takich jak wykonywanie połączeń, smsów czy wprowadzanie spotkań do kalendarza, Asystent potrafi też np. sprawdzić aktualny kurs walut, podać wyniki meczu, czy pogodę w wybranym mieście. Innymi słowy, generuje dla nas przetworzone informacje pochodzące z zewnętrznych źródeł przy zachowaniu kontekstu i naturalnej formy konwersacji. Formułując pytania nie trzeba budować ich analogicznie do zapytań w wyszukiwarce - zamiast pytać o prognozę pogody w Warszawie na dzień 20 czerwca 2020 r., wystarczy powiedzieć: “Ok, Google, czy będzie mi dziś potrzebny parasol?” Asystent sam rozpozna słowa klucze (“dziś” i “parasol”) i dodatkowo zrozumie ich kontekst, odczyta położenie urządzenia z którego korzystamy i odpowie stosownie do okoliczności. 

Poza natywnymi funkcjami dostarczonymi bezpośrednio od Google, Asystent współpracuje również z urządzeniami domowymi takimi jak żarówki czy termostaty, dzięki czemu zbudowanie i obsługa ekosystemu inteligentnego domu może odbywać się w obrębie jednej platformy.

Akcje w asystencie głosowym

Trzecia grupa rozwiązań - najbardziej nas interesująca w kontekście tego artykułu to tzw. akcje, które tworzone są przez zewnętrzne firmy, a następnie, po zatwierdzeniu przez Google, udostępniane wszystkim użytkownikom Asystenta. Akcje (analogicznie do skills dla Alexy Amazona) rozszerzają możliwości Asystenta i można przyrównać je do aplikacji dostępnych w Google Play. To odrębne rozwiązania głosowe (a właściwie zestawy dialogów i funkcjonalności), które użytkownik wywołuje (ale nie pobiera ich na urządzenie) i z których korzysta za pośrednictwem Asystenta. Powiedzmy, że chcemy przykładowo, aby Asystent podał nam przepis na określone danie. Zadajemy pytanie Asystentowi, a ten proponuje nam skorzystanie z dedykowanej akcji kulinarnej, która ma w swoich zasobach poszukiwany przez nas przepis. Następnie Asystent przełącza nas bezpośrednio do akcji i dalej prowadzimy konwersację z akcją (rozwiązaniem głosowym zbudowanym przez firmę zewnętrzną), a nie bezpośrednio z Asystentem. 

Jak tworzyć akcje w asystencie głosowym?

Sposób tworzenia akcji zależy od stopnia jej złożoności. Każda akcja obowiązkowo musi zostać umieszczona na Actions on Google - dedykowanej platformie deweloperskiej. Ponadto należy skorzystać z narzędzia do rozumienia języka naturalnego. Jednym z nich jest należący do Google Dialogflow (wcześniej znany pod nazwą Api.ai, wykupiony przez koncern w 2016 r.). Proste akcje mogą powstawać wyłącznie w obrębie Dialogflow, bardziej złożone wymagają korzystania z zewnętrznych rozwiązań. Przykładowo tworząc jedną z akcji w SalesTube skorzystaliśmy z Firestore oraz możliwości integracji tej platformy z Google Cloud Platform. W efekcie zbudowaliśmy rozwiązanie, które przy zwracaniu odpowiedzi łączy się się z zewnętrzną, cyklicznie aktualizowaną bazą danych. 

Tworzenie akcji jak projektowanie aplikacji

Od strony koncepcyjnej tworzenie akcji zbliżone jest do projektowania aplikacji. Zaczynamy od potrzeby, jaką chcemy zaadresować lub problemu, który akcja ma rozwiązywać. Bezpośrednio z tym wiąże się także grupa docelowa, do której planujemy dotrzeć. Należy określić persony użytkowników i personę akcji oraz scenariusze użycia. Dzięki temu w łatwy sposób możemy określić oczekiwania potencjalnych użytkowników, zadania, które będą stawiać przed akcją i cele, jakie będą realizować za jej pośrednictwem. Mając te informacje, przystępujemy do tworzenia dialogów (analogicznie do projektowania ekranów aplikacji). Poza modelowym dialogiem, warto przygotować się również na zapytania od użytkowników, które nie są bezpośrednio związane z funkcjonalnością akcji, ale sprzyjają płynności dialogu (np. prośba o powtórzenie ostatniego komunikatu, dodatkowe wyjaśnienie itd.). Niezbędną fazą tworzenia akcji jest też oczywiście testowanie zaprojektowanych dialogów. Actions on Google umożliwia dwa rodzaje testowania - Alpha, dostępne wyłącznie dla wskazanych przez nas użytkowników (najlepsze do wstępnych testów, do sprawdzenia płynności rozmowy, dodania dodatkowych zapytań itd.) oraz Beta, gdzie testowanie akcji odbywa się już wewnętrznie w Google i nastawione jest na weryfikację, czy akcja spełnia standardy nałożone przez Asystenta (więcej informacji na ten temat dostępne jest w dokumentacji Google).

Gdy akcja przejdzie pozytywną weryfikację, uzyskujemy możliwość jej publikacji i staje się ona dostępna dla wszystkich użytkowników Asystenta. Jednak (znów analogicznie jak w przypadku aplikacji) na tym nasza praca nie powinna się zakończyć. Wspomniany wyżej Dialogflow daje możliwość podglądu i analizy najczęściej wywoływanych dialogów (bez przypisanych do nich użytkowników) oraz błędów (zapytań, na które akcja nie znalazła pasujących odpowiedzi). Na podstawie tych informacji możemy akcję udoskonalać, a także rozwijać, dodając do niej kolejne funkcje (np. linkowanie do aplikacji czy dokonywanie zakupów włącznie z obsługą płatności). 

Przyszłość asystenta głosowego w Polsce

Jak widać, akcje dają potencjalnie duże możliwości nawiązania dialogu z konsumentami. Dlaczego więc nie zdobyły (jeszcze) popularności? Zaryzykuję tu twierdzeniem, że marki na rodzimym rynku nadal szukają dla nich najlepszego zastosowania. Akcje są rozwiązaniem, z którym polscy konsumenci nadal się oswajają. Mówiąc wprost - nie są oni przyzwyczajeni do głosowych rozwiązań. W związku z tym marka, wypuszczając na rynek akcję, powinna zaoferować taką wartość, która będzie unikalna dla rozwiązania głosowego i niedostępna w innych mediach. Błędem jest np. próba przenoszenia całego serwisu internetowego do akcji, gdyż użytkownik w pierwszym odruchu wybierze rozwiązanie łatwiejsze, to które już zna (innymi słowy skorzysta ze strony internetowej marki, a nie z jej akcji). Czy w związku z tym powinniśmy zrezygnować z budowania akcji? Oczywiście nie. Należy jednak jasno określić jej cel, potrzebę, którą ma spełniać (przykładowo w myśl teorii Job to be done) oraz wartość dodaną, jaką niesie za sobą zastosowanie interfejsu głosowego. 

Podobał ci się artykuł, podziel się nim na:

Zmieńmy razem świat e‑commerce!

Zawsze chętnie odpowiemy na Twoje pytania. Zapraszamy do kontaktu.

Zadaj pytanie