SlideShare a Scribd company logo
1 of 29
Download to read offline
Bartosz Ziółko
Jak wykorzystaliśmy technologie rozpoznawania
mowy i mówcy do automatyzacji call centre.
www.techmo.pl www.dsp.agh.edu.pl
2
• Automatic speech recognition
• Speaker verification, identification and
profiling
• Speech synthesis
• Natural language processing
• VR sound simmulation
3
Speech recognition
Deep Neural Networks
4
5
Speech recognition
Fast
Accurate
Reliable
Easily integratable
• GRPC
• MRCP v2
• Propietary protocol
• C++ / Java clients
Industry standards
• SRGS
• Semantic Interpretation
Case #Words Speedup
Numbers 1000 7,7x / core
Streets 1300 5,5x / core
Towns 265 6,7x / core
Commands 50 26,5x / core
Case Samples Rate
Numbers 5600 98,4%
Streets 12000 99,1%
Towns 500 99,2%
Commands 4900 98,5%
[M. Ziółko, J. Gałka, B. Ziółko, T. Jadczyk, D. Skurzok, M. Mąsior, ”Automatic Speech Recognition System Dedicated for Polish, Interspeech 2011, Florence]
[B. Ziółko, T. Jadczyk, D. Skurzok, P. Żelasko, J. Gałka, T. Pędzimąz, I. Gawlik, S. Pałka "SARMATA 2.0 Automatic Polish Language Speech Recognition System", Interspeech, Dresden, 2015]
Recent and undergoing applications
6
Automatic system for
reporting failures by
customers
Automatic
infoline
Time alignment of film
transcripts for
audiodescription research
IVR + ASR
7
Example of a hypothesis without a grammar
9
[A system and a method for providing a dialog with a user, B. Ziółko, T.
Pędzimąż (patent in USA, and applications in Canada, Japan & EPO)]
Quasi free dialogs in a game
10
a - graph structure of simple dialogue scenario ; b - schematic (two
dialogue coefficients a and b) representation of a multidimensional map of
possible dialogue transitions in a particular graph node with 3 possible exits.
Transitions map demonstrates simplified 2 dimensional case (in real
applications tens or hundreds of dimensions are needed). The marked fields
3, 6, 7 determine the transition in the dialogue graph.
11
Speaker verification,
identification and
profiling
Voice biometrics
convenience
price
Recording Matching Decision
Voiceprint database
YES NO
Speaker verification
System supporting speaker
identification in emergency call center
[J. Gałka, J. Grzybowska, M. Igras, P. Jaciow, K. Wajda, M. Witkowski and M. Ziołko, "System supporting speaker
identification in emergency call center", Interspeech, Dresden, 2015]
Application for:
Zastosowania
• Biometryczne systemy bezpieczeństwa
– Zalety w porównaniu do innych systemów
• Nieskończona ilość materiału do analizy (więcej
nagrań – większa dokładność)
• Wymagany jedynie tani sprzęt
• Niewymagana obecność (zdalne rozpoznanie)
• Bezpieczeństwo
Zastosowania
• Biometryczne systemy bezpieczeństwa
• Przez telefon
– Transakcje bankowe
» Zmniejszenie strat powiązanych z defraudacjami
» Zmniejszenie kosztów prewencji defraudacji
» Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów
– Poczta głosowa
– Zakupy przez telefon
– Głosowe interaktywne systemy odpowiadające
Zastosowania
systemy
bezpieczeństwa
Odzyskiwanie hasła
przez telefon
30 do 40 %
telefonów do
obsługi klienta to
problemy z hasłem
Telephony system
Authentication
centre
Target system
Password Reset
SR
USER
Zastosowanie
– Monitoring
• Kontrola zdalnej pracy i obecności
pracowników
• Weryfikacja zwolnień warunkowych i
aresztów domowych
• Gmina Iberville w LA (US) używa
identyfikacji mówcy przez telefon dla osób
objętych opieką kuratora
–Przed automatyzacją -> 1400 $/dziecko
–Po -> 193 $/dziecko
• Użycie telefonów więziennych
Zastosowania
• Wsparcie służb
– W kryminalistyce
– Rozpoznawanie mówców na żywo w identyfikacji osób
dzwoniących
• Śledzenie mówcy, wykrywanie i nadzór
• Analiza mowy syntezowanej i modulowanej
• Cechy głosu są trudniejsze do ukrycia niż twarz
Zastosowania
• Rozpoznawanie mowy i mówcy
– Ulepszenie systemów bezpieczeństwa
– Transkrybowanie wielu mówców na raz w
konwersacji
- Rozprawy sądowe, parlamenty i inne
transkrypcje spotkań
Czy biometria głosowa jest atrakcyjna?
21
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjna
Dlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
Czy biometria głosowa jest atrakcyjna?
22
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjna
Dlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
Czy biometria głosowa jest atrakcyjna?
23
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjna
Dlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
nawyki
• Zamknięty/ otwarty zbiór
• Weryfikacja / Identyfikacja
• Zależne (stałe lub zmienne) lub niezależne od tekstu
• Cechy niskiego poziomu (akustyczne) lub wysokiego
(lingwistyczne, dialektowe, społeczne, itd.)
Klasyfikacja
System z zamkniętym zbiorem System ze zbiorem otwartymPoza bazą danych
Narzucone
błędne
rozpoznanie
Baza danych Baza danych
Tak
Nie
Mówca NNowak ?
Baza danych Baza danych
„nie pasuje
do
żadnego”
? ?
? ?
Poziomy rozpoznawania mówcy
Semantyka, dykcja,
wymowa
Status społeczno-
finansowy, edukacja,
miejsce urodzin
Prozodia, rytm, tempo
intonacji, modulacja
głośności
Typ osobowości,
wpływ rodziców
Akustyczne aspekty
mowy
Anatomiczna
struktura narządów
mowy
Cechy
wysokiego
poziomu
(nieakustyczne)
Cechy
niskiego
poziomu
(fizyczne)
Trudna
ekstrakcja
Łatwa
ekstrakcja
Playback detection
26
[J. Gałka, M. Grzywacz, R.
Samborski Playback attack
detection for text-
dependent speaker
verification over telephone
channels, Speech
Communication, vol. 67, pp.
143-153]
Patent pending
Playback attack detection
27
[J. Gałka, M. Grzywacz, R.
Samborski Playback attack
detection for text-dependent
speaker verification over
telephone channels, Speech
Communication, IF, vol. 67, pp. 143-
153]
Demo
• ASR
– Taxi: 12 333 76 12
• Biometry
– VoiceColor: 12 312 25 96
• TTS – techmo.pl/tts
• Soundtracer
– https://www.youtube.com/watch?v=EWatzCC7rk0
– https://www.youtube.com/watch?v=05EL5SumE_E
28
2929
DSP AGH Group and Techmo

More Related Content

More from 2040.io

Wyzwania związane z modelowaniem mobilnych systemów świadomych kontekstu
Wyzwania związane z modelowaniem mobilnych systemów świadomych kontekstuWyzwania związane z modelowaniem mobilnych systemów świadomych kontekstu
Wyzwania związane z modelowaniem mobilnych systemów świadomych kontekstu2040.io
 
Rozpoznawanie mowy: problem rozwiązany?
Rozpoznawanie mowy: problem rozwiązany?Rozpoznawanie mowy: problem rozwiązany?
Rozpoznawanie mowy: problem rozwiązany?2040.io
 
Czy Deep Learning działa?
Czy Deep Learning działa?Czy Deep Learning działa?
Czy Deep Learning działa?2040.io
 
Analiza semantyczna zasosowana w środowisku Menerva
Analiza semantyczna zasosowana w środowisku MenervaAnaliza semantyczna zasosowana w środowisku Menerva
Analiza semantyczna zasosowana w środowisku Menerva2040.io
 
Time-series prediction with neural networks
Time-series prediction with neural networksTime-series prediction with neural networks
Time-series prediction with neural networks2040.io
 
Ai meetup Neural machine translation updated
Ai meetup Neural machine translation updatedAi meetup Neural machine translation updated
Ai meetup Neural machine translation updated2040.io
 
AIMeetup #4: Neural-machine-translation
AIMeetup #4: Neural-machine-translationAIMeetup #4: Neural-machine-translation
AIMeetup #4: Neural-machine-translation2040.io
 
AIMeetup #4: Artificial intelligence and economics
AIMeetup #4: Artificial intelligence and economicsAIMeetup #4: Artificial intelligence and economics
AIMeetup #4: Artificial intelligence and economics2040.io
 
AIMeetup #4: Let’s compete with machine! edrone crm
AIMeetup #4: Let’s compete with machine! edrone crmAIMeetup #4: Let’s compete with machine! edrone crm
AIMeetup #4: Let’s compete with machine! edrone crm2040.io
 

More from 2040.io (9)

Wyzwania związane z modelowaniem mobilnych systemów świadomych kontekstu
Wyzwania związane z modelowaniem mobilnych systemów świadomych kontekstuWyzwania związane z modelowaniem mobilnych systemów świadomych kontekstu
Wyzwania związane z modelowaniem mobilnych systemów świadomych kontekstu
 
Rozpoznawanie mowy: problem rozwiązany?
Rozpoznawanie mowy: problem rozwiązany?Rozpoznawanie mowy: problem rozwiązany?
Rozpoznawanie mowy: problem rozwiązany?
 
Czy Deep Learning działa?
Czy Deep Learning działa?Czy Deep Learning działa?
Czy Deep Learning działa?
 
Analiza semantyczna zasosowana w środowisku Menerva
Analiza semantyczna zasosowana w środowisku MenervaAnaliza semantyczna zasosowana w środowisku Menerva
Analiza semantyczna zasosowana w środowisku Menerva
 
Time-series prediction with neural networks
Time-series prediction with neural networksTime-series prediction with neural networks
Time-series prediction with neural networks
 
Ai meetup Neural machine translation updated
Ai meetup Neural machine translation updatedAi meetup Neural machine translation updated
Ai meetup Neural machine translation updated
 
AIMeetup #4: Neural-machine-translation
AIMeetup #4: Neural-machine-translationAIMeetup #4: Neural-machine-translation
AIMeetup #4: Neural-machine-translation
 
AIMeetup #4: Artificial intelligence and economics
AIMeetup #4: Artificial intelligence and economicsAIMeetup #4: Artificial intelligence and economics
AIMeetup #4: Artificial intelligence and economics
 
AIMeetup #4: Let’s compete with machine! edrone crm
AIMeetup #4: Let’s compete with machine! edrone crmAIMeetup #4: Let’s compete with machine! edrone crm
AIMeetup #4: Let’s compete with machine! edrone crm
 

AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

  • 1. Bartosz Ziółko Jak wykorzystaliśmy technologie rozpoznawania mowy i mówcy do automatyzacji call centre. www.techmo.pl www.dsp.agh.edu.pl
  • 2. 2 • Automatic speech recognition • Speaker verification, identification and profiling • Speech synthesis • Natural language processing • VR sound simmulation
  • 5. 5 Speech recognition Fast Accurate Reliable Easily integratable • GRPC • MRCP v2 • Propietary protocol • C++ / Java clients Industry standards • SRGS • Semantic Interpretation Case #Words Speedup Numbers 1000 7,7x / core Streets 1300 5,5x / core Towns 265 6,7x / core Commands 50 26,5x / core Case Samples Rate Numbers 5600 98,4% Streets 12000 99,1% Towns 500 99,2% Commands 4900 98,5% [M. Ziółko, J. Gałka, B. Ziółko, T. Jadczyk, D. Skurzok, M. Mąsior, ”Automatic Speech Recognition System Dedicated for Polish, Interspeech 2011, Florence] [B. Ziółko, T. Jadczyk, D. Skurzok, P. Żelasko, J. Gałka, T. Pędzimąz, I. Gawlik, S. Pałka "SARMATA 2.0 Automatic Polish Language Speech Recognition System", Interspeech, Dresden, 2015]
  • 6. Recent and undergoing applications 6 Automatic system for reporting failures by customers Automatic infoline Time alignment of film transcripts for audiodescription research
  • 8. Example of a hypothesis without a grammar
  • 9. 9 [A system and a method for providing a dialog with a user, B. Ziółko, T. Pędzimąż (patent in USA, and applications in Canada, Japan & EPO)] Quasi free dialogs in a game
  • 10. 10 a - graph structure of simple dialogue scenario ; b - schematic (two dialogue coefficients a and b) representation of a multidimensional map of possible dialogue transitions in a particular graph node with 3 possible exits. Transitions map demonstrates simplified 2 dimensional case (in real applications tens or hundreds of dimensions are needed). The marked fields 3, 6, 7 determine the transition in the dialogue graph.
  • 13. Recording Matching Decision Voiceprint database YES NO Speaker verification
  • 14. System supporting speaker identification in emergency call center [J. Gałka, J. Grzybowska, M. Igras, P. Jaciow, K. Wajda, M. Witkowski and M. Ziołko, "System supporting speaker identification in emergency call center", Interspeech, Dresden, 2015] Application for:
  • 15. Zastosowania • Biometryczne systemy bezpieczeństwa – Zalety w porównaniu do innych systemów • Nieskończona ilość materiału do analizy (więcej nagrań – większa dokładność) • Wymagany jedynie tani sprzęt • Niewymagana obecność (zdalne rozpoznanie) • Bezpieczeństwo
  • 16. Zastosowania • Biometryczne systemy bezpieczeństwa • Przez telefon – Transakcje bankowe » Zmniejszenie strat powiązanych z defraudacjami » Zmniejszenie kosztów prewencji defraudacji » Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów – Poczta głosowa – Zakupy przez telefon – Głosowe interaktywne systemy odpowiadające
  • 17. Zastosowania systemy bezpieczeństwa Odzyskiwanie hasła przez telefon 30 do 40 % telefonów do obsługi klienta to problemy z hasłem Telephony system Authentication centre Target system Password Reset SR USER
  • 18. Zastosowanie – Monitoring • Kontrola zdalnej pracy i obecności pracowników • Weryfikacja zwolnień warunkowych i aresztów domowych • Gmina Iberville w LA (US) używa identyfikacji mówcy przez telefon dla osób objętych opieką kuratora –Przed automatyzacją -> 1400 $/dziecko –Po -> 193 $/dziecko • Użycie telefonów więziennych
  • 19. Zastosowania • Wsparcie służb – W kryminalistyce – Rozpoznawanie mówców na żywo w identyfikacji osób dzwoniących • Śledzenie mówcy, wykrywanie i nadzór • Analiza mowy syntezowanej i modulowanej • Cechy głosu są trudniejsze do ukrycia niż twarz
  • 20. Zastosowania • Rozpoznawanie mowy i mówcy – Ulepszenie systemów bezpieczeństwa – Transkrybowanie wielu mówców na raz w konwersacji - Rozprawy sądowe, parlamenty i inne transkrypcje spotkań
  • 21. Czy biometria głosowa jest atrakcyjna? 21 5 18 23 36 18 zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna 23% nieatrakcyjna Dlaczego? 11 12 28 41 nie ufam jej jest dziwna/śmieszna łatwo nagrać mój głos głos może uleć modyfikacji np.… 12 26 35 42 innowacyjna łatwa w użyciu bezpieczna komfortowa 54% atrakcyjna Źródło: di.com.pl Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
  • 22. Czy biometria głosowa jest atrakcyjna? 22 5 18 23 36 18 zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna 23% nieatrakcyjna Dlaczego? 11 12 28 41 nie ufam jej jest dziwna/śmieszna łatwo nagrać mój głos głos może uleć modyfikacji np.… 12 26 35 42 innowacyjna łatwa w użyciu bezpieczna komfortowa 54% atrakcyjna Źródło: di.com.pl Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
  • 23. Czy biometria głosowa jest atrakcyjna? 23 5 18 23 36 18 zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna 23% nieatrakcyjna Dlaczego? 11 12 28 41 nie ufam jej jest dziwna/śmieszna łatwo nagrać mój głos głos może uleć modyfikacji np.… 12 26 35 42 innowacyjna łatwa w użyciu bezpieczna komfortowa 54% atrakcyjna Źródło: di.com.pl Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia. nawyki
  • 24. • Zamknięty/ otwarty zbiór • Weryfikacja / Identyfikacja • Zależne (stałe lub zmienne) lub niezależne od tekstu • Cechy niskiego poziomu (akustyczne) lub wysokiego (lingwistyczne, dialektowe, społeczne, itd.) Klasyfikacja System z zamkniętym zbiorem System ze zbiorem otwartymPoza bazą danych Narzucone błędne rozpoznanie Baza danych Baza danych Tak Nie Mówca NNowak ? Baza danych Baza danych „nie pasuje do żadnego” ? ? ? ?
  • 25. Poziomy rozpoznawania mówcy Semantyka, dykcja, wymowa Status społeczno- finansowy, edukacja, miejsce urodzin Prozodia, rytm, tempo intonacji, modulacja głośności Typ osobowości, wpływ rodziców Akustyczne aspekty mowy Anatomiczna struktura narządów mowy Cechy wysokiego poziomu (nieakustyczne) Cechy niskiego poziomu (fizyczne) Trudna ekstrakcja Łatwa ekstrakcja
  • 26. Playback detection 26 [J. Gałka, M. Grzywacz, R. Samborski Playback attack detection for text- dependent speaker verification over telephone channels, Speech Communication, vol. 67, pp. 143-153] Patent pending
  • 27. Playback attack detection 27 [J. Gałka, M. Grzywacz, R. Samborski Playback attack detection for text-dependent speaker verification over telephone channels, Speech Communication, IF, vol. 67, pp. 143- 153]
  • 28. Demo • ASR – Taxi: 12 333 76 12 • Biometry – VoiceColor: 12 312 25 96 • TTS – techmo.pl/tts • Soundtracer – https://www.youtube.com/watch?v=EWatzCC7rk0 – https://www.youtube.com/watch?v=05EL5SumE_E 28
  • 29. 2929 DSP AGH Group and Techmo