voice based gender recognition

Voicebot usability. Państwo, Ty, Pan czy Pani. A może bezosobowo? Jak voicebot powinien się zwracać do rozmówcy?

Usability jest jednym z najważniejszych elementów decydujących o akceptacji danej technologii lub usługi.

Usability voicebotów można rozumieć na wiele sposobów. Z jednej strony mamy klienta-rozmówcę, który z botem rozmawia. Ów klient ocenia bota ze swojej perspektywy wykorzystując do tego szeroko pojętych atrybutów jakościowych (quality attributes wg Jacob Nielsen). Większość z nas ocenia bota odpowiadając sobie na pytania: czy bot zrozumiał co do niego mówiłem, czy bot właściwie zinterpretował moją intencję lub jak szybko bot odpowiedział?

Dalej mamy klienta-zleceniodawcę, który ma do wykonania kampanię, którą trzeba najlepiej szybko przygotować i uruchomić. Wszak czas to pieniądz.

Z trzeciej strony mamy projektanta bota, współodpowiedzialnego za prawidłowe ułożenie sentencji i szeroko pojętą kulturę oraz osobowość bota. Projektant wykorzystuje szereg narzędzi, które mają za zadanie tą pracę mu ułatwić, tym samym dostarczyć użytecznego bota w jak najkrótszym czasie.

Każdy z powyższych aktorów ma swoje cele oraz oczekiwania:

Klient-rozmówca oczekuje, że bot będzie go rozumiał i załatwi z botem sprawę jak należy. W przypadku rozmowy przychodzącej klient będzie oczekiwał (zakładamy, że ma oczekiwania), że bot przedstawi właściwie ofertę, odpowie na wszelkie pytania i będzie prowadził rozmowę uwzględniając wszelkie intencje i obiekcje klienta-rozmówcy.

Klient-zleceniodawca chce robić biznes, wykorzystuje voiceboty po to aby optymalizować procesy i obsługiwać klientów szybciej, sprawniej i taniej. Jednocześnie nie tracąc na jakości obsługi, wręcz zwiększając satysfakcję klientów.

Projektant botów ma za zadanie sprostać wymaganiom klienta-zleceniodawcy i stworzyć bota, który będzie spełniał kryteria jakościowe (często subiektywne) klienta-rozmówcy jednocześnie realizując cele biznesowe. Musi w tym celu dobrać głos, ułożyć odpowiednio pytania, zdefiniować odpowiedzi, modele obiekcji. Musi dobrać modele sztucznej inteligencji do przetwarzania tekstu i wskazać zmiany poprawiające skuteczność. My to nazywamy stworzeniem osobowości bota. Odpowiednio dobrane komponenty sprawiają, że zarówno klient-zleceniodawca jak i klient-rozmówca (właściwie klienci-rozmówcy) są zadowoleni a bot zbiera pochwały.

Jednym z elementów, pozwalającym poprawić wizerunek oraz skuteczność bota są elementy świadczące o jego kulturze osobistej. Poza oczywistymi elementami jak sposób wypowiedzi, struktura zdań i dobór słów, jest jeszcze coś z czym voiceboty sobie nie do końca radzą. Mowa tu o zwrotach grzecznościowych.

Czy mieliście okazję rozmawiać z botem, który mówił do Was na Ty? A może bot mimo tego, że prowadził rozmowę z jedną osobą zwracał się do rozmówcy per Państwo, np: ile Państwo chcą zamówić biletów? Czy to brzmi naturalnie gdy bot rozmawia z jedną osobą?

O ile w kulturze zachodniej nie ma nic dziwnego w mówieniu sobie na Ty, o tyle w naszym kraju czy krajach azjatyckich jest to sprzeczne z obowiązującą kulturą oraz obyczajem, wręcz uważane za niegrzeczne. No może z wyjątkiem, kiedy voicebot jest kierowany do młodych ludzi a swobodny styl jest częścią jego charakteru.

Czyż nie grzeczniej by było gdyby bot zwracał się do rozmówcy per Pan lub Pani?

Pomyślcie o pracy projektanta-botów, który myśląc nad dialogiem niejednokrotnie musi formułować pytania w formie bezosobowej albo nad wyraz grzecznościowej, przez co zdania tracą sens.

  • Bot: Dzień Dobry.
  • Klient-rozmówca: Dzień dobry.
  • Bot: Dzwonię z firmy ... .
  • Bot wersja nr 1. "Państwo": Czy posiadają Państwo auto, którego ubezpieczenie kończy się w przeciągu najbliższych 30 dni?
  • Bot wersja nr 2. "na Ty": Czy posiadasz auto, którego ubezpieczenie kończy się w przeciągu najbliższych 30 dni?
  • Bot wersja nr 3. Rozpoznająca płeć: Czy posiada Pan auto, którego ubezpieczenie kończy się w przeciągu najbliższych 30 dni?

My zdecydowanie preferujemy wersję nr 3. Wersję, która potrafi dostosować się do rozmówcy i zwracać się do niego w sposób zgodny z przyjętymi normami społecznymi i dobrym obyczajem. Umiejętność bota, która pozwala na rozpoznanie płci na podstawie głosu to VBGR - Voice Based Gender Recognition.

VBGR jest to model bazujący na metodach sztucznej inteligencji, który pozwala na podstawie nawet bardzo krótkich zwrotów prawidłowo wskazać płeć rozmówcy. Technologia Evobot stworzona przez nasz software house potrafi rozpoznać płeć już na podstawie prostych słów, takich jak "halo", "witam", "dzień dobry", czy "pagi".

Do wykrycia płci użyliśmy zróżnicowanych cech dźwięku dzięki czemu model dobrze radzi sobie nawet w przypadkach gdy człowiek musi się zastanowić kto mówi (doświadczyliśmy tego zwłaszcza w przypadku bota działającego w Indonezji). Proces szukania cech był długi ale dzięki temu model osiąga bardzo dobre wyniki. Oczywiście pojawiły się problemy z jakością próbek względem faktycznych dźwięków. Udało się uzyskać skuteczność modelu na poziomie 96% w przypadku accuracy. Ważną sprawą był oczywiście dobór modelu który zapewni wysoką skuteczność. Szybko odrzuciliśmy drzewa decyzyjne i las drzew. Nasza uwaga skupiła się na XGBoost (implementacja Gradient Boosting) ponieważ nie zależało nam na interpretowalności oraz na wysokiej zdolności modelu (capacity).

Boosting jest bardzo ciekawą metodą z rodziny machine learning. Działa bardzo podobnie jak człowiek. Człowiek uczy się na błędach i próbuje je poprawiać. Boosting działa podobnie, tylko że za pomocą algorytmu. Zaczyna od prostego drzewa - z założeniem że dużo brakuje mu do doskonałości . Następnie buduje kolejne drzewo które próbuje poprawiać poprzednie. Zmniejsza to ryzyko przeuczenia modelu co często występuje w drzewach decyzyjnych. Gradient wynika z tego w jaki sposób jest zoptymalizowany model. Gradient to zwykła liczba (lub wektor liczb), która w wskazuje kierunek i intensywność wzrostu funkcji w danym punkcie.

Dlaczego wybraliśmy implementacje XGBoost? Technika ta jest już wystarczająco stabilna i gotowa do użycia w środowiskach produkcyjnych. Między innymi używają jej na szeroką skalę większe firmy jak chociazby Spotify. Dodatkowo mieliśmy doświadczenie przy poprzednich modelach i wiedzieliśmy że jego skuteczność jest wysoka. Warto tutaj wspomnieć o bardzo ciekawej bibliotece czyli hyperopt która ułatwia znalezienie optymalnych parametrów modelu , co wcale nie jest takie proste jeśli mamy robić to ręcznie. Ze wsparciem hyperopt byliśmy w stanie poprawić skuteczność nawet o 5% w zaledwie kilka minut.

Dzięki VBGR nasi projektanci botów i klienci nie muszą się gimnastykować projektując wypowiedzi bota. Nasze boty mówią w sposób bezpośredni, zwracając się wykorzystując zwroty grzecznościowe. Ponadto klienci-rozmówcy odbierają boty wykorzystujące VBGR jako bardziej kulturalne oraz prostsze do zrozumienia. Nasze badania pokazują, że klienci-rozmówcy pamiętają więcej szczegółów z rozmów z voicebotami wykorzystującymi VBGR. Ma to związek z tym, że ich myśli są skupione na rozmowie. Naturalna budowa zdań nie powoduje dodatkowego obciążenia pamięciowego rozmówcy. To wszystko sprawia, że efektywność botów wykorzystujących rozpoznawanie płci są lepsze a ilość przerwanych połączeń niższa.

Chcesz zobaczyć jak rozpoznawanie płci na podstawie głosu działa w praktyce? Zapisz się na demo.


Łukasz Jędrzejczyk fintech rejs

Evoqai na Fintech Rejs i na gościnnym wykładzie na studiach MBA Politechniki Warszawskiej

Poprzedni tydzień był bardzo ciężki dla naszego założyciela, Łukasza. Na początku tygodnia nastąpiła kumulacja wdrożeń i ważnych etapów kilku projektów. W tym uruchomienie nowego voicebota dla branży ubezpieczeniowej, testy końcowe w ramach jednego z dużych projektów naszego software house oraz tworzenie makiety nowego systemu obsługi klienta.

W czwartek nasz prezes miał okazję wziąć udział w pierwszej (wg naszej wiedzy) konferencji finansowej w (po)pandemicznym Świecie: FintechRejs zorganizowanej przez Rafała Tomkowicza. W imieniu Evoqai Łukasz wziął udział w panelu dyskusyjnym pt "Zagrożenia, czy może szansa i nowe otwarcie dla fintechów?". Wspólnie z Szymonem Surma, Krystianem Kulczyckim oraz Marcinem Czuganem, Łukasz dzielił się swoimi uwagami na temat rynku fintech w kontekście zmian wywołanej pandemią. Dużą część panelu poświęcono temu co pandemia zmieniła w podejściu do biznesu, prowadzenia projektów oraz tego jakie technologie pozwalają zabezpieczyć się przed nieoczekiwanym wpływem "czarnego łabędzia" jakim dla wielu okazał się COVID-19. Dynamiczny panel, prowadzący przez nie mniej dynamiczną osobę jaką jest Michał Pawlik ze SMEO. Wszystkim uczestnikom, prowadzącym oraz organizatorom chcemy podziękować za sprawną organizację i zaproszenie.

Jesteśmy dumni, że mogliśmy zostać jednym ze sponsorów tego wydarzenia.

Dobrych newsów ciąg dalszy. Na zaproszenie Politechniki Warszawskiej, Łukasz Jędrzejczyk miał okazję poprowadzić część wykładu nt. roli Sztucznej Inteligencji w Digitial Transformation. Jesteśmy niezmiernie dumni, że nasze wysiłki na rzecz popularyzacji sztucznej inteligencji w biznesie zostały zauważone. Łukasz miał okazję podzielić się ze studentami naszymi doświadczeniami z realizacji oraz wdrożeń projektów wykorzystujących sztuczną inteligencję (chatboty, voiceboty, algorytmy klasyfikujące dokumenty). Dziękujemy za zaproszenie, mając tym samym nadzieję, że studenci wynieśli z wykładu coś pozytywnego.


VAD. Kultura osobista voicebota.

Porównując odkrycia technologiczne dostępne 12 lat temu, kiedy na poważnie zainteresowałem się sztuczną inteligencją, z dzisiejszymi, zauważa się ogromny postęp. W 2008 roku ilość narzędzi i gotowych modeli pozwalających na szybkie zaadaptowanie machine learning w docelowej aplikacji można było policzyć na palcach jednej ręki. Dziś nawet bym nie próbował ich wszystkich wymienić.

Nie będę ukrywał, że to bogactwo “gotowców” mnie bardzo cieszy. Sprawia to, że od pomysłu do realizacji i pierwszego MVP dzielą nas często tylko tygodnie. Co pozwala szybko przetestować i zwalidować koncept przed angażowaniem większych zasobów w projekt.

W projekcie EvoBot musieliśmy zmierzyć się z wieloma nowymi technologiami: telekomunikacja i protokół SIP, kodeki dźwięku, NLP, NLG, analiza tekstu (tokenizacja, lematyzacja). O ile bardzo sprawnie przeszliśmy fazę od pomysłu do wykonania pierwszego telefonu, gdzie nasz bot wypowiedział pierwszą sentencję (generowaną syntezatorem mowy). Wykorzystując istniejące modele. O tyle wychwycenie momentu, kiedy bot powinien skończyć słuchać, było już nie lada wyzwaniem. Albo bot zaczął odpowiadać za wcześnie (nie słysząc wszystkiego co wypowiedział rozmówca, tym samym tracąc część wypowiedzi rozmówcy), albo za późno (co sprawiało wrażenie jakby bot się zaciął).

Jak nauczyć bota przestrzegania norm społecznych?

Skupiając się na zamianie dźwięku na tekst i odwrotnie nie zdawaliśmy sobie sprawy z tego jak ważne i trudne zadanie nas czeka. Nasz bot był technicznie uzdolniony, ale był odbierany jako niekulturalny, wręcz nieużyteczny. Zaledwie po kilku dniach od wykonania pierwszej rozmowy przez EvoBota, naszym głównym celem było nauczenie go kultury. Wszak w realnym Świecie, normą społeczną jest to, że jak jedna strona mówi, to druga słucha. Nasz bot miał z tym problemy.

To czego potrzebowaliśmy to inteligentny VAD – Voice Activity Detection. Termin znaliśmy, ale VAD to nie tylko badanie amplitudy dźwięku. Cisza okazała się nie być ciszą. A głos okazał się być szumem, wiatrem lub tykającym w aucie kierunkowskazem.

Potrzebowaliśmy modelu, który będzie potrafił rozróżnić szum z tła od rzeczywistej wypowiedzi. Z pomocą przyszła nam, jak zawsze zresztą, nauka. Literatura w temacie VAD okazała się być wyczerpująca (Sohn et. al, sciencedirect). Potrzebowaliśmy tylko danych, w naszym przypadku nagrań. I tak zaczęliśmy zbierać dźwięki. Robiliśmy testy w samochodzie (przy różnej prędkości, z otwartymi szybami, w różnych samochodach), na dworcach, w warszawskim metrze. Używaliśmy różnych telefonów, słuchawki i zestawu głośnomówiącego, prowadziliśmy rozmowy przy niedzielnym obiedzie, w samotności i w barze. Dzwoniliśmy do znajomych pracujących w skupiskach ludzi czy na call center.

Wyposażeni w wiedzę teoretyczną oraz dane rozpoczęliśmy prace nad modelem VAD i jego ustawieniem. Generowanie i testowanie stało się naszym dniem powszednim ale i tym razem, sztuczna inteligencja kolejny raz przysłużyła się naszemu voicebotowi. Nauczyła go kultury.

Późniejsze testy, i wdrożenia pokazały, że problemy zniknęły. Nasz bot już wie kiedy ma mówić, a kiedy słuchać. Dodatkowo VAD sprawił, że bot zaczął szybciej odpowiadać. A rozmówcy i klienci twierdzą czasami, że wręcz ich pogania w rozmowie.

Voicebot musi wiedzieć kiedy ma słuchać a kiedy mówić

Ta lekcja pokazała nam, że inteligencję i skuteczność bota mierzy się nie tylko ilością rozpoznawanych intencji czy sposobem prowadzenia rozmowy. Często ułamek sekundy sprawia, że rozmówca myśli, że bot się zawiesił. Co w konsekwencji sprawia, że rozmówca się rozłącza. Dlatego inteligencja bota i User Experience zależy również od tego jak szybko bot reaguje, czy słucha w trakcie tego jak sam mówi.

Proszę sobie wyobrazić, że bot ma do wypowiedzenia długą sentencję i nie słucha, że ktoś chce mu przerwać. Porzucenie rozmowy murowane.

Chcesz porozmawiać z naszym botem? Wypróbuj demo voicebota wyborczego.


Przywitanie z AI (w tle)

Sztuczna inteligencja jest w mojej ocenie jedną z najbardziej interesujących i nieodkrytych dziedzin informatyki. Wszak algorytmy, podstawy teoretyczne w postaci modeli matematycznych są znane od wielu lat. Mimo tego, zastosowanie AI wciąż rozpala emocje i wyobraźnię. Specjaliści od AI zafascynowani kolejnym wdrożeniem zastanawiający się nad tym w jakim obszarze mogą wykorzystać swój produkt. Z drugiej strony biznes wyprzedzający się w generowaniu pomysłów związanych z wykorzystaniem AI w procesach automatyzujących pracę, generujących oszczędności i jednocześnie zwiększając zyski.

AI == Future?

Mimo niesamowitego postępu technologi AI, rosnącej ilości materiałów, kursów (popularne MIT AI czy Oxford AI Course), gotowych narzędzi wykorzystujących AI (Tensorflow, nltk,  Pytorch) jest to wciąż obszar na którym jest wiele do zrobienia. A właściwie, obszar, z którego można wiele pożyczyć aby wnieść nową wartość do istniejących modeli biznesowych, produktów, usług, procesów. Wg danych z portalu Statista, zyski branży IT związane ze świadczeniem usług AI osiągną tym roku (2020)  ponad 22 miliardów dolarów aby za niespełna 5 lat osiągnąć przychody na poziomie 126 miliardów dolarów. Takich prognoz (pod względem przyrostów % year to year) nie ma przed sobą żadna z branż IT. Niewątpliwie, w najbliższych latach czeka nas wiele nowości w świecie AI.

Evoqai również w swojej strategii rozwoju obrał AI jako jeden z 3 kierunków mających stanowić podstawę źródła przychodów. Ale zanim o tym to trochę historii...

Pierwsze spotkanie z AI

Moja pierwsza przygoda ze sztuczną inteligencją miała miejsce w 2003 roku. Dokładnie 17 lat od momentu pisania tego posta, na studiach. Na początku wydawało mi się to wszystko totalną abstrakcją. Niemożliwym do nauczenia zlepkiem niezrozumiałych koncepcji i teorii, których nie będę w stanie pojąć.

Mój cel na początku był prosty: jakoś przez to przebrnąć i zaliczyć. I tak się stało. Z tym, że owa droga okazała się być fascynującą przygodą, która zakończyła się (trochę też za sprawą przypadku) zwolnieniem z egzaminu i zrodzeniem pasji do wszelkiego rodzaju automatyzacji. Do dziś wspominam symulację obiegu ściągawek na klasówce - tak brzmiał nasz pierwszy poważny projekt na SI. Potem kolejne zetknięcie z tematem, i kolejne zwolnienie z egzaminu.

Nasze drogi (moja i Sztucznej Inteligencji) rozeszły się na jakiś czas. Wszak jako wchodzący w dorosłe życie, musiałem się skupić na czymś, na czym się znałem i co pozwoli mi opłacić rachunki. W tamtym czasie było to programowanie aplikacji internetowych. I tak to trwało prawie dwa lata. Aż postanowiłem wszystko rzucić i spróbować swoich sił w świecie nauki. Dostałem się na studia doktoranckie. Ażeby było trudniej, to w Anglii, we wspólnym projekcie (PRiMMA) realizowanym przez The Open University, The Imperial College London oraz University of Bath. Do dziś nie wiem jak to się stało, ale się dostałem. A jeden z moich promotorów, Bashar Nuseibeh, po latach powiedział wprost: "I spot the potential". Całe szczęście dla mnie, ponieważ dzięki temu już niedługo później mogłem robić coś, co zawładnęło mną na ponad 3 lata: "doing academic research".

Zaczęło się od czytania i poszukiwania problemu. Aż w końcu (po ponad pół roku) go znalazłem i mogłem zacząć go doprecyzowywać i rozwiązywać. A to znaczyło, że znowu mogłem ubrudzić ręce w technologii: statystyka, data science, machine learning i moje ulubione user studies. Była to niesamowita lekcja, która zmieniła moje postrzeganie Świata i podejście do rozwiązywania problemów. Cóż to była za przygoda - stworzyć system wykorzystujący uczenie maszynowe oraz wiedzę na temat psychologii oraz HCI (Human Computer Interaction) aby dowieść, że można w ten sposób dołożyć cegiełkę do rozwiązania problemu prywatności. Problemu głęboko zakorzenionego w psychologii środowiskowej, o którym wtedy jeszcze niewielu sobie zdawało sprawę. A jednak udało się. PhD completed. A ja mogłem iść dalej.

Po doktoracie, moja przygoda z AI urwała się na prawie 8 lat. Nie licząc jakiś pomniejszych eksperymentów i zabaw z data science w R, Weka czy tensor flow. Aż w trakcie spotkań z jednym z klientów padło z jego ust pytanie, "czy mógłbyś zrobić system, który sprawi, że .... ?" No właśnie, to co było po że sprawiło, że rozwiązaniem tego problemu była sztuczna inteligencja właśnie. 6 tygodni zabawy z pythonem, nltk i podobnymi bibliotekami i tak się zrodził nasz pierwszy produkt wykorzystujący elementy AI: EvoScanner - system potrafiący rozpoznawać dane z faktur i dowolnych dokumentów. Co ciekawe, w 6 tygodni udało nam się zrobić model, który na próbce testowej działał o kilka procent lepiej niż inne produkty komercyjne dostępne na rynku. A dziś, stworzenie dedykowane modelu do klasyfikowania dowolnych dokumentów na podstawie treści to dla nas zadanie powszednie.

EvoqAI

W/w projekt to EvoScanner, a jego mały sukces sprawił, że postanowiliśmy zmierzyć się z czymś co wg mnie jest jednym z głównych obszarów rozwoju i przyszłej dominacji AI w biznesie - conversational AI. Czyli systemami wykorzystującymi sztuczną inteligencję do prowadzenia dialogu z człowiekiem. W Evoqai najwięcej uwagi poświęcamy voicebotom, czyli botom głosowym potrafiącym mówić, słuchać, rozumiejącym co się do nich mówi. Mówię tu o systemach, które wykorzystują najlepszy, najprostszy i najbardziej naturalny interfejs jaki wykształcił człowiek: ludzką mowę. Czy może być coś prostszego niż powiedzenie co się chce, ile i w jakim kolorze? Bez konieczności odrywania rąk od kierownicy albo bez konieczności patrzenia w ekran?

Ilość zastosowań jest ogromna: sprzedaż ubezpieczeń, sprzedaż kredytów, ocieplanie leadów, windykacja (przykład evobota), sprzedaż suplementów na odchudzanie, doradztwo, infolinie (weźmy ostatni przykład z branży: infolinia nt. koronawirusa), rezerwacje wizyt u lekarza, fryzjera, kosmetyczki. Do tego wszelkiego rodzaju ankiety, badanie satysfakcji klientów czy w końcu głosowanie (przykład voicebota wyborczego).

To tylko krótka lista zastosowań voicebotów, która tak naprawdę jest nieograniczona.

W 2008 roku natrafiłem na to video: Apple Knowledge Navigator, Jak to pierwszy raz oglądałem nie wierzyłem w to, że będę potrafił takie coś zrobić. Brzmiało to jak abstrakcja: człowiek prowadzi swobodny dialog z robotem. Do tego ten bot rozumie kontekst wypowiedzi, korzysta z systemów zewnętrznych aby wzbogacić rozmowę. Sprawia wrażenie myślącego. WOW. Potem Apple przedstawiło nam Siri, następnie Google i Amazon swoich asystentów a ludzie się zachwycali i dalej zachwycają botami i ich możliwościami. Pamiętam jak po zobaczeniu po raz pierwszy Knowledge Navigatora wpadłem na pomysł żeby zrobić bota, który będzie mi rekrutował uczestników do badania na temat prywatności z twittera. Co prawda mój bot ze sztuczną inteligencją nie miał wiele wspólnego - nie można przecież nazwać AI bota, który bazuje na prostym modelu i wyrażeniach regularnych. Ale bot robotę zrobił: moi rozmówcy z nim rozmawiali i byłem w stanie (tzn. bot był w stanie) ich nakłonić do wzięcia udziału w moim badaniu. Mój pierwszy twitter bot (https://twitter.com/entish) zrekrutował mi do ankiety badawczej ponad 3 tysiące osób z całego Świata w kilka dni. Ponad 200 wypełniło ankietę do końca. To był mega wynik jak na automat, który powstał w 2 godziny po obejrzeniu wspomnianego video. Czyż nie prawda, że boty można wykorzystać wszędzie?

Voiceboty? - to przecież takie proste...

W mojej opinii tworzenie botów głosowych jest jedną z trudniejszych technicznie dziedzin IT. Na naszym rynku działa wiele firm zajmujących się tematem, jak choćby Voicetel, Intelliwise czy Stanusch Technology. Jednocześnie wykorzystanie voicebotów jest wciąż niewielkie. Dziś zrobienie asystenta głosowego jest o wiele prostsze niż dawniej. Prostsze niż choćby 11 lat temu, kiedy nie było jeszcze narzędzi AI od Amazona, Google czy Microsoft. Wielu programistów powie, że wykorzystując dzisiejszą technologię można prostego bota złożyć z gotowych wręcz klocków: głos weźmiemy od Amazona, przetwarzanie tekstu z Dialog Flow. Kilka dni i gotowe. Ale doświadczenie pokazuje, że to jednak nie jest takie proste. Gdyby tak było, firm oferujących voiceboty byłoby tyle co firm produkujących strony internetowe. A każdy z nas na słowo voicebot by wiedział o czym mówimy. Tak jednak nie jest.

Trzeba pamiętać, że rozpoznanie tekstu czy synteza mowy to jedno. Ale jak sprawić żeby bot miał duszę, osobowość? Jak sprawić żeby był kulturalny, żeby słuchał kiedy powinien, i mówił kiedy jego kolej? Jak sprawić aby normy społeczne, oczekiwania drugiej strony dialogu były przez bota respektowane? Jak sprawić żeby bot rozumiał czy rozmawia z kobietą czy mężczyzną?

Jest element w tej całej botowej układance, który widzę jako jeden z kluczowych czynników decydujących o szerokiej akceptacji technologii głosowych. Jest to voicebot usability. W moim przekonaniu Historia o voicebotach to nie jest wyłącznie historia o technologii, o zamianie dźwięku na tekst czy generowaniu mowy. Niewątpliwie są to elementy technologiczne, bez których nie da się zrobić voicebota. Ale nie można w tym wszystkim zapominać o tym, że bot to jednak interfejs użytkownika. Głos to nasza klawiatura, myszka lub tablet, a bot to tylko interpreter i feedback. A skuteczny interfejs użytkownika to taki, którego nie trzeba się uczyć, który jest naturalny i tani w użytkowaniu. Jest takie pojęcie w HCI jak Interaction Cost. Pozwolę sobie przytoczyć definicję autorstwa Raluci Badiu (konsultant z NN Group): the interaction cost is the sum of efforts — mental and physical — that the users must deploy in interacting with a site in order to reach their goals. Co prawda koszt, o którym mowa odnosi się do stron www, lecz jak odniesiemy to do interfejsów (w tym głosowych) to każda osoba, która miała przyjemność robić boty wyciągnie z niej wnioski dla siebie. My doszliśmy do nich bardzo szybko (literatura nt Usability Goals obowiązkowa).

Nasze badania pokazują, że sposób reagowania, szybkość odpowiedzi, umiejętność przerywania własnej wypowiedzi przez bota czy zapamiętywanie kontekstu rozmowy są równie ważne co kompetencje. Nikt nie lubi jak mu się przerywa w trakcie wypowiedzi, każda milisekunda w oczekiwaniu na odpowiedź bota zwiększa ryzyko zakończenia rozmowy przez drugą stronę. Brak umiejętności reakcji na obiekcje nie wpływa dobrze na Customer Experience, a pytanie kilka razy o to samo w tej samej rozmowie ... to już nie te czasy.

Voicebot usability - co to takiego?

Teraz powinienem rozwinąć dalej wątek. Zrobię to w kolejnym poście. Póki co pozostawię więcej pytań niż odpowiedzi, ale wszystko wskazuje na to, że całą branżę Voicebot czeka ciekawa droga. A na koniec zawsze się wspomina wrażenia z drogi. My swoimi będziemy dzielili się na bieżąco.