5. 5
Speech recognition
Fast
Accurate
Reliable
Easily integratable
• GRPC
• MRCP v2
• Propietary protocol
• C++ / Java clients
Industry standards
• SRGS
• Semantic Interpretation
Case #Words Speedup
Numbers 1000 7,7x / core
Streets 1300 5,5x / core
Towns 265 6,7x / core
Commands 50 26,5x / core
Case Samples Rate
Numbers 5600 98,4%
Streets 12000 99,1%
Towns 500 99,2%
Commands 4900 98,5%
[M. Ziółko, J. Gałka, B. Ziółko, T. Jadczyk, D. Skurzok, M. Mąsior, ”Automatic Speech Recognition System Dedicated for Polish, Interspeech 2011, Florence]
[B. Ziółko, T. Jadczyk, D. Skurzok, P. Żelasko, J. Gałka, T. Pędzimąz, I. Gawlik, S. Pałka "SARMATA 2.0 Automatic Polish Language Speech Recognition System", Interspeech, Dresden, 2015]
6. Recent and undergoing applications
6
Automatic system for
reporting failures by
customers
Automatic
infoline
Time alignment of film
transcripts for
audiodescription research
9. 9
[A system and a method for providing a dialog with a user, B. Ziółko, T.
Pędzimąż (patent in USA, and applications in Canada, Japan & EPO)]
Quasi free dialogs in a game
10. 10
a - graph structure of simple dialogue scenario ; b - schematic (two
dialogue coefficients a and b) representation of a multidimensional map of
possible dialogue transitions in a particular graph node with 3 possible exits.
Transitions map demonstrates simplified 2 dimensional case (in real
applications tens or hundreds of dimensions are needed). The marked fields
3, 6, 7 determine the transition in the dialogue graph.
14. System supporting speaker
identification in emergency call center
[J. Gałka, J. Grzybowska, M. Igras, P. Jaciow, K. Wajda, M. Witkowski and M. Ziołko, "System supporting speaker
identification in emergency call center", Interspeech, Dresden, 2015]
Application for:
15. Zastosowania
• Biometryczne systemy bezpieczeństwa
– Zalety w porównaniu do innych systemów
• Nieskończona ilość materiału do analizy (więcej
nagrań – większa dokładność)
• Wymagany jedynie tani sprzęt
• Niewymagana obecność (zdalne rozpoznanie)
• Bezpieczeństwo
16. Zastosowania
• Biometryczne systemy bezpieczeństwa
• Przez telefon
– Transakcje bankowe
» Zmniejszenie strat powiązanych z defraudacjami
» Zmniejszenie kosztów prewencji defraudacji
» Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów
– Poczta głosowa
– Zakupy przez telefon
– Głosowe interaktywne systemy odpowiadające
18. Zastosowanie
– Monitoring
• Kontrola zdalnej pracy i obecności
pracowników
• Weryfikacja zwolnień warunkowych i
aresztów domowych
• Gmina Iberville w LA (US) używa
identyfikacji mówcy przez telefon dla osób
objętych opieką kuratora
–Przed automatyzacją -> 1400 $/dziecko
–Po -> 193 $/dziecko
• Użycie telefonów więziennych
19. Zastosowania
• Wsparcie służb
– W kryminalistyce
– Rozpoznawanie mówców na żywo w identyfikacji osób
dzwoniących
• Śledzenie mówcy, wykrywanie i nadzór
• Analiza mowy syntezowanej i modulowanej
• Cechy głosu są trudniejsze do ukrycia niż twarz
20. Zastosowania
• Rozpoznawanie mowy i mówcy
– Ulepszenie systemów bezpieczeństwa
– Transkrybowanie wielu mówców na raz w
konwersacji
- Rozprawy sądowe, parlamenty i inne
transkrypcje spotkań
21. Czy biometria głosowa jest atrakcyjna?
21
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjna
Dlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
22. Czy biometria głosowa jest atrakcyjna?
22
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjna
Dlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
23. Czy biometria głosowa jest atrakcyjna?
23
5 18 23 36 18
zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna
23% nieatrakcyjna
Dlaczego?
11
12
28
41
nie ufam jej
jest
dziwna/śmieszna
łatwo nagrać mój
głos
głos może uleć
modyfikacji np.…
12
26
35
42
innowacyjna
łatwa w użyciu
bezpieczna
komfortowa
54% atrakcyjna
Źródło: di.com.pl
Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w
listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
nawyki
24. • Zamknięty/ otwarty zbiór
• Weryfikacja / Identyfikacja
• Zależne (stałe lub zmienne) lub niezależne od tekstu
• Cechy niskiego poziomu (akustyczne) lub wysokiego
(lingwistyczne, dialektowe, społeczne, itd.)
Klasyfikacja
System z zamkniętym zbiorem System ze zbiorem otwartymPoza bazą danych
Narzucone
błędne
rozpoznanie
Baza danych Baza danych
Tak
Nie
Mówca NNowak ?
Baza danych Baza danych
„nie pasuje
do
żadnego”
? ?
? ?
25. Poziomy rozpoznawania mówcy
Semantyka, dykcja,
wymowa
Status społeczno-
finansowy, edukacja,
miejsce urodzin
Prozodia, rytm, tempo
intonacji, modulacja
głośności
Typ osobowości,
wpływ rodziców
Akustyczne aspekty
mowy
Anatomiczna
struktura narządów
mowy
Cechy
wysokiego
poziomu
(nieakustyczne)
Cechy
niskiego
poziomu
(fizyczne)
Trudna
ekstrakcja
Łatwa
ekstrakcja
26. Playback detection
26
[J. Gałka, M. Grzywacz, R.
Samborski Playback attack
detection for text-
dependent speaker
verification over telephone
channels, Speech
Communication, vol. 67, pp.
143-153]
Patent pending
27. Playback attack detection
27
[J. Gałka, M. Grzywacz, R.
Samborski Playback attack
detection for text-dependent
speaker verification over
telephone channels, Speech
Communication, IF, vol. 67, pp. 143-
153]