AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Bartosz Ziółko
Jak wykorzystaliśmy technologie rozpoznawania
mowy i mówcy do automatyzacji call centre.
www.techmo.pl www.dsp.agh.edu.pl

2
• Automatic speech recognition
• Speaker verification, identification and
profiling
• Speech synthesis
• Natural language processing
• VR sound simmulation

5
Speech recognition
Fast
Accurate
Reliable
Easily integratable
• GRPC
• MRCP v2
• Propietary protocol
• C++ / Java clients
Industry standards
• SRGS
• Semantic Interpretation
Case #Words Speedup
Numbers 1000 7,7x / core
Streets 1300 5,5x / core
Towns 265 6,7x / core
Commands 50 26,5x / core
Case Samples Rate
Numbers 5600 98,4%
Streets 12000 99,1%
Towns 500 99,2%
Commands 4900 98,5%
[M. Ziółko, J. Gałka, B. Ziółko, T. Jadczyk, D. Skurzok, M. Mąsior, ”Automatic Speech Recognition System Dedicated for Polish, Interspeech 2011, Florence]
[B. Ziółko, T. Jadczyk, D. Skurzok, P. Żelasko, J. Gałka, T. Pędzimąz, I. Gawlik, S. Pałka "SARMATA 2.0 Automatic Polish Language Speech Recognition System", Interspeech, Dresden, 2015]

Recent and undergoing applications
6
Automatic system for
reporting failures by
customers
Automatic
infoline
Time alignment of film
transcripts for
audiodescription research

Example of a hypothesis without a grammar

9
[A system and a method for providing a dialog with a user, B. Ziółko, T.
Pędzimąż (patent in USA, and applications in Canada, Japan & EPO)]
Quasi free dialogs in a game

10
a - graph structure of simple dialogue scenario ; b - schematic (two
dialogue coefficients a and b) representation of a multidimensional map of
possible dialogue transitions in a particular graph node with 3 possible exits.
Transitions map demonstrates simplified 2 dimensional case (in real
applications tens or hundreds of dimensions are needed). The marked fields
3, 6, 7 determine the transition in the dialogue graph.

11
Speaker verification,
identification and
profiling

Voice biometrics
convenience
price

Recording Matching Decision
Voiceprint database
YES NO
Speaker verification

System supporting speaker
identification in emergency call center
[J. Gałka, J. Grzybowska, M. Igras, P. Jaciow, K. Wajda, M. Witkowski and M. Ziołko, "System supporting speaker
identiﬁcation in emergency call center", Interspeech, Dresden, 2015]
Application for:

Zastosowania
• Biometryczne systemy bezpieczeństwa
– Zalety w porównaniu do innych systemów
• Nieskończona ilość materiału do analizy (więcej
nagrań – większa dokładność)
• Wymagany jedynie tani sprzęt
• Niewymagana obecność (zdalne rozpoznanie)
• Bezpieczeństwo

Zastosowania
• Biometryczne systemy bezpieczeństwa
• Przez telefon
– Transakcje bankowe
» Zmniejszenie strat powiązanych z defraudacjami
» Zmniejszenie kosztów prewencji defraudacji
» Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów
– Poczta głosowa
– Zakupy przez telefon
– Głosowe interaktywne systemy odpowiadające

Zastosowania
systemy
bezpieczeństwa
Odzyskiwanie hasła
przez telefon
30 do 40 %
telefonów do
obsługi klienta to
problemy z hasłem
Telephony system
Authentication
centre
Target system
Password Reset
SR
USER

Zastosowanie
– Monitoring
• Kontrola zdalnej pracy i obecności
pracowników
• Weryfikacja zwolnień warunkowych i
aresztów domowych
• Gmina Iberville w LA (US) używa
identyfikacji mówcy przez telefon dla osób
objętych opieką kuratora
–Przed automatyzacją -> 1400 $/dziecko
–Po -> 193 $/dziecko
• Użycie telefonów więziennych

Zastosowania
• Wsparcie służb
– W kryminalistyce
– Rozpoznawanie mówców na żywo w identyfikacji osób
dzwoniących
• Śledzenie mówcy, wykrywanie i nadzór
• Analiza mowy syntezowanej i modulowanej
• Cechy głosu są trudniejsze do ukrycia niż twarz

Zastosowania
• Rozpoznawanie mowy i mówcy
– Ulepszenie systemów bezpieczeństwa
– Transkrybowanie wielu mówców na raz w
konwersacji
- Rozprawy sądowe, parlamenty i inne
transkrypcje spotkań

Czy biometria głosowa jest atrakcyjna?
21
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjna
Dlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.

22
5 18 23 36 18
23% nieatrakcyjna
Dlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna

23
5 18 23 36 18
23% nieatrakcyjna
Dlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
nawyki

• Zamknięty/ otwarty zbiór
• Weryfikacja / Identyfikacja
• Zależne (stałe lub zmienne) lub niezależne od tekstu
• Cechy niskiego poziomu (akustyczne) lub wysokiego
(lingwistyczne, dialektowe, społeczne, itd.)
Klasyfikacja
System z zamkniętym zbiorem System ze zbiorem otwartymPoza bazą danych
Narzucone
błędne
rozpoznanie
Baza danych Baza danych
Tak
Nie
Mówca NNowak ?
Baza danych Baza danych
„nie pasuje
do
żadnego”
? ?
? ?

Poziomy rozpoznawania mówcy
Semantyka, dykcja,
wymowa
Status społeczno-
finansowy, edukacja,
miejsce urodzin
Prozodia, rytm, tempo
intonacji, modulacja
głośności
Typ osobowości,
wpływ rodziców
Akustyczne aspekty
mowy
Anatomiczna
struktura narządów
mowy
Cechy
wysokiego
poziomu
(nieakustyczne)
Cechy
niskiego
poziomu
(fizyczne)
Trudna
ekstrakcja
Łatwa
ekstrakcja

Playback detection
26
[J. Gałka, M. Grzywacz, R.
Samborski Playback attack
detection for text-
dependent speaker
verification over telephone
channels, Speech
Communication, vol. 67, pp.
143-153]
Patent pending

Playback attack detection
27
[J. Gałka, M. Grzywacz, R.
Samborski Playback attack
detection for text-dependent
speaker verification over
telephone channels, Speech
Communication, IF, vol. 67, pp. 143-
153]

Demo
• ASR
– Taxi: 12 333 76 12
• Biometry
– VoiceColor: 12 312 25 96
• TTS – techmo.pl/tts
• Soundtracer
– https://www.youtube.com/watch?v=EWatzCC7rk0
– https://www.youtube.com/watch?v=05EL5SumE_E
28

AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

Recommended

Recommended

More Related Content

More from 2040.io

More from 2040.io (9)

AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre