SlideShare a Scribd company logo
1 of 46
Download to read offline
2019. 1. 10
Raw waveform을 이용한 화자 인증 및
짧은/원거/ 발성에 대한 보상 연구 소개
발표자: 정지원
서울시립0학교
지능형29연구실
*본 발표 자료는 *눔명조 폰트를 :용하여 작성1었습.다
Table 2. C21te1t4
1. D자 인증
2. Raw wave.23m DNN을 이용C D자 인증 시스템
3. Raw wave.23m DNN을 이용C 짧은 발성 보상 시스템
4. Raw wave.23m DNN을 이용C 원거리 발성 보상 시스템
2
1. 화자 인증
v 입력D 발성의 음성 정보를 이용f여 대상 g자(ta5get spea1e5)의
발성과의 일치 여부를 e별f는 기술
g자 인a
4화자 인증 Ra9 9a8efo52 DNN 짧은 발성 보상 원거리 발성 보상
g자 1
g자 %
g자 인a
R스템
대상 g자)
g자 1
“안녕 N리:”
“안녕 N리:”
유사도 (% %
유사도 58 %
X
승인
거부
v 화자 fn 시스s 동i 과정
화자 fn
5화자 -증 )*w w*veform D(( pb 발성 R상 a거N 발성 R상
등록 과정 ((ff-line)
평) 과정 ((n-line)
n개d
화자 특o
화자 특o
추r D((
n개d 등록 발성
별도로 사전 w습 수행
화자 모델
w습 화자 모델
평: 발성
화자 특o
추r D(( 화자 특o 화자 fn 승f / 거부
fn k수와 g계값을
(사전에 정d) 비교
* n: 시나N오 상 정d된 1 e상d 정수
* 화자 특ob 본 발v m에 spe*1er embeddin/e라고도 부릅니D
v f향 yq & 화l yq
§ f향 yq) 발성g f향 o보R 담고 있는 yq
§ 단위 시F 당 (eC 2( ms) 고oN sag 벡x 형w
§ ,C) M-**, Mel&ener5ies, E
§ 화l yq) 발성e 발화한 화l에 M한 o보R 담고 있는 yq
§ nt 발성e 고oN sag 벡x 형w로 uv
§ 화l ip에서는 입력 발성c로부x s례M로 f향 yq uv 후 이R
활용하여 화l yqe uv하는 방식이 보편m
화l ip
6화자 인증 Raw wavef:rm DNN r은 발성 보상 a거리 발성 보상
* M-** ) Mel&frequen2D 2epstral 2:effi2ient
2. Raw waveform DNN을
2용한 화자 인증 시.템
v l향 특징 사g 추n
§ *-- e구 활성화 nr: 사r yac M반하d 추출한 l향 특징 사g
§ ,FCC, ,el-energies, F
§ *-- e구 활성화 n후: s차 특징 추출 과tk 덜 거진 l향 특징k 사g
§ Core ide0: Mvc tm된 l향 특징 추출 b고리w보다 *--n
Tn터c M반해 추출하는 특징n R 우수할 가능성n pl
§ ,FCC à ,el-energies à spe2trogr0: à R0D D0Cefor:
§ R0D D0Cefor:k ng하는 화q o증은 2018N도c 처l 소개됨
R0D D0Cefor: *--
8화q o증 Raw waveform DNN 짧은 발성 보상 i거리 발성 보상
* ,FCC : ,el-frequen2y 2epstr0l 2oeffi2ient
FFT : f0st Fourier tr0nsfor:
*CT uf ,el-s20le
filter10n8 uf
FFT, DindoDing uf
v )pec:rogram과 raw waveform을 d력t는 DNNa m이
§ )pec:rogram: 시간 o에 따라 Sg에 ha된 각 frequency responseN rv
§ )pec:rogram을 d력t는 DNN: Di에 np된 주q수 대역들을 활용
↔ (aw waveform을 d력t는 DNN: DNN 내Rf으로 s요u 주q수 대역
np
(aw waveform DNN
9we c증 Raw waveform DNN l은 발성 보상 원거리 발성 보상
(aw waveform 예시
,a:a shape: (#:ime, #channel#
)pec:rogram 예시
,a:a shape: (#:ime, #frequency, #channel#
v R8w w8vefDrB .22t 첫 cDCv 필터들u c는 R
§ P 필터가 n러 z파h Yot frequeCcM reHpDCHe를 동im 추출
§ 누적 frequeCcM reHpDCHe 관찰
§ 1,000 HN u하 중심 (화w v증 l플a케ugt Sp)
§ 기y h8Cdcr8fI s향 특징me T려하지 k던 Tz파 Yo
(),000 HN ud) 또한 추출
R8w w8vefDrB .22
10화w v증 Raw waveform DNN 짧r 발f cd q거a 발f cd
*Spe8ker recDgCiIiDC frDB r8w w8vefDrB wiIh HiCcCeI, 1. R8v8CeAAi, 7. ,eCgiD
첫 cDCv 필터들t frequeCcM reHpDCHe 첫 cDCv 필터들t 누적 frequeCcM reHpDCHe
*TDw8rdH direcIAM BDdeAiCg r8w Hpeech HigC8A fDr Hpe8ker verific8IiDC uHiCg C22H,
0CASSP(01*, H. 1uckeChirC eI 8A.
v 01w w1Deform ,// 모J I조 – Ape1:er em2edding extr1ction
§ 입력* r1w w1Deform / 출력* Ape1:er em2edding
01w w1Deform ,//
11화자 인증 Raw waveform DNN 짧은 N성 보상 R거리 N성 보상
*ADoiding Ape1:er oDerfitting in end-to-end ,//A
uAing r1w w1Deform for text-independent Ape1:er
Derific1tion, .. .ung et 1l, -nterApeec8 2018.
v Raw waLefoHD 0NN f델 구v – 1*1 (eEd-to-eEd) f델
§ ta, 등c gk과 평P gkr Haw waLefoHD / 출a, 화u sw S과
§ .-LectoH*, 화u f델(등c gk)과 평P gkpbi터 추출한 IpeaBeH
eD:eddAEg 간r 관계d 나타내는 특징
§ 두 ta 특징m 대해 eCeDeEt-wAIe 합/차/곱 l행한 뒤 nS
Raw waLefoHD 0NN
12화u sw Raw waveform DNN y은 gk h상 oRe gk h상
*SpeaBeH LeHAfAcatAoE uIAEg BeHEeC-:aIed :AEaHN cCaIIAfAeHI wAth :AEaHN opeHatAoE deHALed featuHeI, 2. 4ee, I/-SSP *()4.
v 2NN g델 à 8ST9 g델 à 424 g델 확장 이x
§ 한번s 확장된 g델을 학n하f w래 taNks는 더 강인하지d%
h표 taNk m능 저하될 T능m 높p짐
§ DNNs 한번s t러 작r을 학n하는 W은 어av
à9uHti-NteL tMaiJiJD* 이u하t CMaIe-HeveH% utteMaJce-HeveH%
tMiaH-HeveH로 확장o키e 학n
RaR RaveCoMI DNN
13화자 인증 Raw wav()orm D%% 짧은 im kl w거c im kl
시스템 화자 식별 정확도 동일오류율 (%)
RW2NN-8ST9 (R(o IuHti-NteL) 1..* % **.0 %
RW2NN-8ST9 (R IuHti-NteL) 1,.. % 1.2 %
RW424 (R(o IuHti-NteL) *-./ %
RW424 (R IuHti-NteL) 0.0 %
* 7oiJt tMaiJiJD oC eSLaJded eJd-to-eJd DNN CoM teSt-deLeJdeJt NLeakeM veMiCicatioJ% 5. 5eo et aH.% 6JteMNLeecE 2)*/.
v OverfittiCgt m화하R 위한 R법
§ 3) regul9riz9tiDC (weight de:9L) 등v 정규화 R법 적ow 중n
§ 1DCv s닉층v stride를 통한 정c 압축c다, 6DDliCg l9Ler do하는 Pw r리
§ 1DCv s닉층0 파라미터 R반 동z à 학i Ww터, 목적 함g에 l향 받u
N 6DDliCg s닉층s 단h 압축
79w w9vefDrm 244
14화y 인증 Raw wav()orm D%% 짧s af ce pO리 af ce
시스템 화자 식별 정확도 동일오류율 (%)
78144 (w/D weight de:9L) ..%. % (4%/ %
78144 (w weight de:9L) /0%0 % ()%3 %
78144 (w/D pDDliCg) 7.%, % (.%/ %
78144 (w pDDliCg) /4%( % (0%0 %
v 성N mW 연L
§ 0nGeEsDeech 20%8 f출 당시 시스l U 성N
§ ne 시스l U 성N
4:I I:vefCEm -NN
15o자 bh Raw wav()orm D%% 짧은 T성 VW 원거S T성 VW
시스템 동일오류율 (%)
4WCNN %0.0 %
4WCNN-1S62 8.7 %
4W.2. 7.4 %
시스템 동일오류율 (%)
4WCNN 6.2 %
4WCNN-G47 4.8 %
4W.2. 4.0 %
동c 오R율: 8CxCeleb% 데a터셋 M준
v h능 wg k구
§ GRGGdy SGCREJ
§ LST8대신 GRU를 fl
§ .ETiVCTiPO HUOETiPO- RGLU à LGCLy RGLU
§ :pTiNiYGR- SG1 à .8SGRCd*
§ b적vi u가
§ 0GOTGR MPSS**
§ BGTWGGO SpGCLGR MPSS***
§ 199 구r d경
RCW WCVGHPRN 199
16화p os Raw waveform DNN tn ch eg m거a ch eg
* :O TJG EPOVGRIGOEG PH .dCN COd DGyPOd, 6. SCSJCOL GT CM., I0LR )0(8.
** . diSERiNiOCTiVG HGCTURG MGCROiOI CppRPCEJ HPR dGGp HCEG RGEPIOiTiPO, B.AGO GT CM., 200V )0(*.
*** 2Od-TP-GOd MPSSGS DCSGd PO SpGCLGR DCSiS VGETPRS COd CMM-SpGCLGR JCRd OGICTiVG NiOiI HPR SpGCLGR VGRiHiECTiPO, H. HGP GT CM.,
(SUDNiTTGd TP I0.SSP )0(,).
v 성S p상 b구 L ,:At:D loEE
§ ,oD: id:6: 부V 내 분산f C:A6liz:
16w w6v:foDm D00
17화i h증 Raw waveform DNN le 발성 Y상 d거W 발성 Y상
xi: 샘nxg :mb:ddiAg
ci: 샘nx가 aoR 부Vg c:At:D N
+ diEcDimiA6tiv: f:6tuD: l:6DAiAg 6CCDo6ch foD d::C f6c: D:cogAitioA, Y.W:A :t 6l., .,,V (01).
2oftm6x loEE 단독 사c 2oftm6x loEE + ,:At:D LoEE
(!: ,:At:D loEEg 가중m)
v f능 향c k구 – BeCEeen Bpe1keA loBB
§ CoAe ide1: em2edding nR층N 출력층 b이 Eeig8C m1CAix를
화s별 21BiB 벡터V로 해e à cenCAoid로 bl
§ 전체 a류p cenCeAVo 동hj 고려하는 것이 가능함
§ tl 결N0oxCele21 화s rw, DCAS, %018 c황ri S이터gjd
각 10 % v도p 추가 f능 향c 확r
R1E E1DefoAm DNN
18화s rw Raw waveform DNN xn 발f 보c m거리 발f 보c
Ei: 화s ip 21BiB 벡터
E:: 화s :p 21BiB 벡터
v f능 향c k구 – BeCEeen Bpe1keA loBB
§ CoAe ide1: em2edding nR층N 출력층 b이 Eeig8C m1CAix를
화s별 21BiB 벡터V로 해e à cenCAoid로 bl
§ 전체 a류p cenCeAVo 동hj 고려하는 것이 가능함
§ tl 결N0oxCele21 화s rw, DCAS, %018 c황ri S이터gjd
각 10 % v도p 추가 f능 향c 확r
R1E E1DefoAm DNN
17화s rw Raw waveform DNN xn 발f 보c m거리 발f 보c
Ei: 화s ip 21BiB 벡터
E:: 화s :p 21BiB 벡터
v 성능 향상 연구 – DNN 구조 변경
§ R베딩의 추상화 정9를 일치시킴 (6존 방식N 9개 블록 추상화, 6개 블록 사용)
()w w)vefor, DNN
19화자 인증 Raw waveform DNN 짧N 발성 D상 원거리 발성 D상
6존의 모델 확장 구조 변경된 모델 확장 구조
Raw Waveform
Length: 59,049 (=310 )
Raw Waveform
Length: 59,049 (=310 )
GRU # cells: 1024
fully connected # nodes: 128
fully connected
# speakers: 1211
softmax activation
strided conv 3, 3, 128
batch norm
×2
×4
conv 1d 1, 1, 256
global average pooling
batch norm
fully connected # nodes: 128
fully connected
# speakers: 1211
dropout 0.5
<RWCNN architecture>
×2
×4
strided conv 3, 3, 128
batch norm
<RWCNN-GRU architecture>
pre-emphasis conv 2, 1, 1 pre-emphasis conv 2, 1, 1
softmax activation
speaker feature
conv block
# kernel: 128
conv block
# kernel: 256
conv block
# kernel: 128
conv block
# kernel: 256
3. Raw waveform DNN을
이용한 짧은 .성 보상 3스템
v wm 발성 h구o 필요성 (()
§ 화s 인u f플리케pag서 요구하T 발성 Sp ↔ d험g 사k되T 발성 Sp
§ r력 발성o SpN wev면, 성능p 크P 하락
§ ic ( – i-vectDr Rt *0 초 à )초
21화s 인u Raw wavefDrB 0NN 짧은 발성 보상 l거리 발성 보상
Raw wavefDrB 0NNn pk한 wm 발성 보상 c스템
* SEeaker verificatiDC with shDrt ItteraCces, a review Df. ChaAAeCges, treC:s aC: DEEDrtICities, -. 4D::ar et aA., 217 .iDBetrics, )0(7.
v 짧r 발d mUt 필od (*)
§ 화자 v증 k플리케uelc oU하는 발d Wu ↔ i험l ap되는 발d Wu
§ w력 발dt WuR 짧아지면% d능u 크게 하락
§ nh * - 8aP PaveAIrG 2NN 기준 , 초 ub à *.(, 초
22화자 v증 8aP PaveAIrG 2NN 짧은 발성 보상 원S리 발d 보b
8aP PaveAIrG 2NNs up한 짧r 발d 보b hf템
시스템 5 0 .상 3.59 0 2.05 0
8W1NN-38U (3.,9 초 학g) -.,) % ..-* )*..( %
8W1NN-38U (*.(, 초 학g) )*.(. %
* 9CIrt Ntterance cIGJensatDIn Dn sJeaker verDADcatDIn vDa cIsDne-based teacCer-stNdent learnDng IA sJeaker eGbeddDngs% 5. 5Nng et al.%
(sNbGDtted tI I10997 *()9).
v 기u 짧k 발성 fN 방향: 발성 단i 특징 보상
§ 짧k 발성 i-HectoD를 P 발성 i-HectoDn coDDGpted :e5tGDe로 간v
§ Denoising 5Gto-encodeD Nt를 통한 짧k 발성 i-HectoD 보상
23
25I I5He:oDm D00l og한 짧k 발성 보상 ba템
화자 pw 25I I5He:oDm D00 짧은 발성 보상 h거Y 발성 보상
Deep stDGctGDe를 M려
(cs로R sh5lloI netIoDk으로 c험)
Test 할 때R og하지 dm
낮k 혼합 수 ,MMe T한
1osteDioD 벡터
(추가 r보)
짧k 발성 i-HectoD P 발성 i-HectoD
Denoising 5GtoencodeD-b5sed spe5keD :e5tGDe DestoD5tion :oD GtteD5nces o: shoDt dGD5tion, -. Y5m5moto et 5l., .nteDspeech (01).
24
05w w5ve:orm ,..l ni한 v은 발b ]a ec템
화s ou 05w w5ve:orm ,.. 짧은 발성 보상 원거리 발b ]a
v Te5cher-DEu8enE (T1) le5rning (()
§ Te5cher ,..로부터 wy한 Do:E l5bell ni해 DEu8enE ,.. 학d
§ -x) /ne-hoE: [0, (, 0, 0, 0] / 1o:E-l5bel: [0.0), 0.8, 0.(, 0.0)]
§ 1o:E-l5bel은 /ne-hoEg 비해 ,..m p[화 bS 향an ]O됨
§ 1Eu8enE ,..과 Te5cher ,..m y력층 값 간m c5Eegoric5l croDD-enEropy N산
§ 1Eu8enE ,..은 Ee5cher ,..g 비해 bS 하락 hon rR a태
§ t은 모T 크기 (모T fx)
§ 원거리 발b 입력 (원거리 발b ]a)
25
0aw waDe7orm DNN을 RN한 짧은 발성 IJ 시L템
화T S증 0aw waDe7orm DNN 짧은 발성 보상 원거리 발성 IJ
*.arge-scale domain adaptation Dia teacher-student learning, -. .i, ,nterspeech )0(*.
v 2eacher-student (21) learning ())
v 9eacheJ-student leaJnCnA Rn를 ibw 짧f 발성 보상
§ :tteJance-leNel T신 Ihoneme-leNel seAment mh 후 보상
§ Raw waNefoJm 255 featuJe maIg Ihoneme-leNel seAmentU로 해석
§ 9eacheJ-student leaJnCnAg 짧f 발성 보상a ts로 lb
26
Raw waNefoJm 255g ibw 짧f 발성 보상 시스u
화k 인o Raw waNefoJm 255 짧은 발성 보상 c거리 발성 보상
* ShoJt utteJance comIensatCon Cn sIeaDeJ NeJCfCcatCon NCa cosCne-based teacheJ-student leaJnCnA of sIeaDeJ embeddCnAs, J. JunA et al.,
(submCtted to 310SS6 *().#.
ShaIe: (#tCmesteI, #feat dCm(*,-##
P tCmesteIg )3(ms Sdh *,-r
vpe로 해석
Raw Waveform
Length: 59,049 (=310 )
Raw Waveform
Length: 59,049 (=310 )
GRU # cells: 1024
fully connected # nodes: 128
fully connected
# speakers: 1211
softmax activation
strided conv 3, 3, 128
batch norm
×2
×4
conv 1d 1, 1, 256
global average pooling
batch norm
fully connected # nodes: 128
fully connected
# speakers: 1211
dropout 0.5
<RWCNN architecture>
×2
×4
strided conv 3, 3, 128
batch norm
<RWCNN-GRU architecture>
pre-emphasis conv 2, 1, 1 pre-emphasis conv 2, 1, 1
softmax activation
speaker feature
conv block
# kernel: 128
conv block
# kernel: 256
conv block
# kernel: 128
conv block
# kernel: 256
v 짧e 발성과 P 발성g sC9ak9D 9mb9ddiAg pl 비N
§ 기n: s력t 간g 보상h sC9ak9D 9mb9ddiAg에 간lkdR a향 미u
§ m안: 짧e 발성과 P 발성g sC9ak9D 9mb9ddiAgg cosiA9 distaAc9S 목k함수에
rJ
27
RaI Iav9:oDm .11f hbw 짧e 발성 보상 시스v
화자 io RaI Iav9:oDm .11 짧은 발성 보상 c거리 발성 보상
* ShoDt utt9DaAc9 comC9AsatioA iA sC9ak9D v9Di:icatioA via cosiA9-bas9d t9ach9D-stud9At l9aDAiAg o: sC9ak9D 9mb9ddiAgs, 0. 0uAg 9t al.,
(submitt9d to I-,SS2 )0(*).
v PhoneDe-CeveC IegDenJ à UJJer9nce-CeveC eD:eddAng
§ RW-22: ,ver9ge
§ RW-22-GRU: GRU R부적h로 P합
§ GRUN JADeIJeGe 따른 GhoneDe-CeveC IegDenJ R부 포함U kb r보e
따W P합 방향 Pr
§ vi 발a 보상e서l Te9cher-IJudenJ Ce9rnAng
§ 긴 발a R부e tp하S 풍부한 kb r보l P합 방향을 mf해,
vi 발al 부s한 kb r보로T r확한 uJJer9nce-CeveC eD:eddAng wr
28
R9w w9veforD .22을 mf한 vi 발a 보상 dc템
화o nu R9w w9veforD .22 짧은 발성 보상 g거리 발a 보상
* ShorJ uJJer9nce coDGenI9JAon An IGe9ker verAfAc9JAon vA9 coIAne-:9Ied Je9cher-IJudenJ Ce9rnAng of IGe9ker eD:eddAngI, 1. 1ung eJ 9C.,
(Iu:DAJJed Jo 0-,SSP )0(*).
* ShorJ uJJer9nce coDpenI9JAon An Ipe9ker verAfAc9JAon vA9 coIAne-:9Ied Je9cher-IJudenJ Ce9rnAng of Ipe9ker eD:eddAngI, 4. 4ung eJ 9C.,
(Iu:DAJJed Jo I10SS6 *().#.
v 보상 ir Ipe9ker eD:eddAng 시각화
§ oN 세n에서 선lp gcc ,S 화hc 발성 시각화 (f반화 성능 시각화#
29
R9w w9veforD 255b d용p ka 발성 보상 시스m
화h e증 R9w w9veforD 255 짧은 발성 보상 원PR 발성 보상
Sh9pe: (#JADeIJep, #fe9J dAD(*,-## à (#fe9J dAD(),(*4##
v 보상 전후 성능 i교
§ e표2 동일 오bt 기준 )*.0( %v 0.7* %까지 보상하는 W
§ +.-1 초 à *.(-초 f성 길w g화p 따c 성능 하a .- % 보상 확x
30
RaT TaSeGMOK 4::v wr한 짧u f성 보상 om템
화자 x증 RaT TaSeGMOK 4:: 짧은 발성 보. sVd f성 보상
시09 ( 초 5. 3.() 초 2.%( 초
RW3::-6RU (+.-1 초 학n) 7.-) % 0.7* % )*.0( %
RW3::-6RU (*.(- 초 학n) )*.(0 %
시09 동일2류3 (%)
ORtNRt(78-4iS) (MOigiLal TS) )*.4. %
5KCeEEiLg (9S5) )(.10 %
5KCeEEiLg (DMs siK) )(.0( %
5KCeEEiLg (DMs siK) % ORtNRt (78-4iS) )(.(0 %
*VMU3eleC) 데w터l 기준 성능
4. Raw waveform DNN을
이용한 원.리 발성 보상 시4템
v a거R 발성 연Ie s요성
§ Sfp와 화i 간e 거R nFJ 화i gn 시스템 성능 t락e m요 요g
§ kd, 잔w 등e l보F d성에 rv
§ 다양u h력 발성 거R에 NQ 성능 예시
32화i gn RaE EaDeform D-- ob 발성 보상 원거리 발성 보상
RaE EaDeform D--c f용u a거R 발성 보상 시스템
* *ar-field speaker reco7nition, .. ,in et al., IEEE transactions on audio, speech, and lan7ua7e processin7, 0eptem2er 2007.
v a거R 발성 연Ie s요성
§ Sfp와 화i 간e 거R nFJ 화i gn 시스템 성능 t락e m요 요g
§ kd, 잔w 등e l보F d성에 rv
§ 다양u h력 발성 거R에 NQ 성능 예시
33화i gn RaE EaDeform D-- ob 발성 보상 원거리 발성 보상
RaE EaDeform D--c f용u a거R 발성 보상 시스템
* *ar-field speaker reco7nition, .. ,in et al., IEEE transactions on audio, speech, and lan7ua7e processin7, 0eptem2er 2007.
v 기d 원거R 발성 연N 소개
§ 음k if 보상 K 8eDeveDbeDatiBA, :eatuDe IaDCiAg 등
§ -11 등 SP을 a용한 보상
§ BDi8geAet*: laJeD-Iise cBAAectiBAs, DecuDsive aDchitectuDe
34lc be RaI Iave:BDm -11 g은 발성 보상 원거리 발성 보상
RaI Iave:BDm -11을 a용한 원거R 발성 보상 시스h
* BDi8geAets: stu8eAt-teacheD tDaAs:eD leaDAiAg base8 BA DecuDsive AeuDal AetIBDks aA8 its aCClicatiBA tB 8istaAt sCeech DecBgAitiBA, J. 0im et al., .,*SS2 2018.
v 근거리%m거리 발성i 대한 성능 불균형
§ 기존 보상을 진행하지 go 모S. m거리 발성i 대한 성능 v하
§ 38ach8r-stD78nt l8arnin: 을 rl한 보상. m거리 발성i 대한 성능 향상,
5Dt %거리 발성에 대한 성능 감소
35화u s증 1aw wav89orm /00 짧o 발성 보상 원거리 발성 보상
1aw wav89orm /00을 rl한 m거리 발성 보상 db템
교사 학생 f층e경망을 활l한 다채N m거리 화u s증, w지m 외, 한국음향학회지 201,.
시스템 %거리 (일오)율 (%) 원거리 (일오)율 (%)
근거리 발성 학c 3.2 % -., %
m거리 발성i 대한 32 보상 10.5 % 2.7 %
Tt 오류n. 한h대 u체 a집 Rr터셋 기준
v 근거리/m거리 발성i 대한 성S 불균형 완화 – ())
§ 학ds 완료된 t9a7h9r 122을 stD89nt 122r 초기값n로 사l
(59a7h9r initialization)
§ StD89nt 122s 학d할 것0 화u f별 + m거리 보상 à m거리 보상
36화u tw 3aw wav9:orm 122 짧o 발성 보상 원거리 (성 )상
3aw wav9:orm 122을 sl한 m거리 발성 보상 ec템
교사 학a h층신경망을 활l한 TzR m거리 화u tw% v지m 외% 한N음향학회지 2()..
시스템 근거리 %일오류율 (%) 원거리 %일오류율 (%)
근거리 발성 학d +.2 % /.. %
m거리 발성i 대한 5S 보상 )(., % 2.7 %
59a7h9r initialization /.. % ).. %
v 근거리/S거리 발성에 대한 성능 불균a 완화 – (&)
§ 기존의 ,S S거리 학N:
§ ,eac2er ())에 근거리, stu/ent ())에 S거리 발성 입력
§ 변경D ,S 학N:
§ ,eac2er ())에 근거리, stu/ent ())에 S거리 발성 입력 &
,eac2er ())에 근거리, stu/ent ())에 근거리 발성 입력
37화자 인증 Raw wa:eform ()) 짧T 발성 보상 원거리 발성 보상
Raw wa:eform ())을 이R한 S거리 발성 보상 시스템
v 근거리/원거리 발성f T한 성R 불N형 완화 – (2)
§ 기tn 5S 원거리 학습0
§ 59a7h9r 122f 근거리% stD89nt 122f 원거리 발성 입력
§ 변경된 5S 학습0
§ 59a7h9r 122f 근거리% stD89nt 122f 원거리 발성 입력 &
59a7h9r 122f 근거리% stD89nt 122f 근거리 발성 입력
38화r 인u 3aw wav9:orm 122 w은 발성 보상 원거리 (성 )상
3aw wav9:orm 122l oi한 원거리 발성 보상 ca템
교사 학생 ezd경망l 활i한 S채널 원거리 화r 인u% sv원 h% 한국m향학회v 2().&
시스템 근거리 %일오류율 (%) 원거리 %일오류율 (%)
근거리 발성 학습 3&2 % /&. %
원거리 발성f T한 5S 보상 )(&, % 2&7 %
59a7h9r initialization /&. % )&. %
5S 보상 c 근/근 학습 추가 2&, % 2&7 %
(추가) 최근 Raw wavef()m 관련
연구 및 짧은 발성 보상
화자인식 논문 소개
v S/1,1.T
§ 2aw wavefCrm -11의 첫S째 cCBv Y닉b을 T로X gc로 제안
§ 0el-filter8aBk 의 cIt-Cff freEIeBcyR 이용f e터 aNh
§ 적Y Darameter (filter당 )M) / f석이 용이
40
0. 2avaBelli, Y. BeBgiC, )0(8
SDeaker recCgBitiCB frCm raw wavefCrm with siBcBet, 0. 2avaBelli, Y. BeBgiC, arXiv.
v 2aG Gave8orm을 생성f는 GA0 a안
§ ,CGA0(2a68or6 eD al., 201()L 유사 구조 이용
§ a안g 1haCe Chu88le NS 이용
§ ,iCcriminaDor가 생성된 P이e의 일정g cN성을 이용h 분별f는 것 Rd
41
C. ,onahue eD al., 201)
SynDheCiIing au6io GiDh GA0C, C. ,onahue eD al., .CL2 GorkChoA 201).
v 2aG Gave8orm을 생성f는 GA0 a안
§ ,CGA0(2a68or6 eD al., 201()L 유사 구조 이용
§ a안g 1haCe Chu88le NS 이용
§ ,iCcriminaDor가 생성된 P이e의 일정g cN성을 이용h 분별f는 것 Rd
42
C. ,onahue eD al., 201)
SynDheCiIing au6io GiDh GA0C, C. ,onahue eD al., .CL2 GorkChoA 201).
v 2aG Gave8orm을 생성f는 GA0 a안
§ ,CGA0(2a68or6 eD al., 201()L 유사 구조 이용
§ a안g 1haCe Chu88le NS 이용
§ ,iCcriminaDor가 생성된 P이e의 일정g cN성을 이용h 분별f는 것 Rd
43
C. ,onahue eD al., 201)
SynDheCiIing au6io GiDh GA0C, C. ,onahue eD al., .CL2 GorkChoA 201).
v 짧은 J성 8-ve2tor (utt-:eve: fe0t) 보상 fr0meDork 제안 – (()
§ )단계 학습: G J성 & 짧은 J성 8-ve2tor S력 후 복원
à 짧은 J성 8-ve2tor S력 후 G J성 8-ve2tor 출력 학습
44
.& -uo et 0:&, )0(8
,eep neur0: netDork 10sed 8-ve2tor m0pp8ng for spe0ker ver8f820t8on us8ng short utter0n2es, .& -uo et 0:&, Spee2h 2ommun820t8on )0(8&
v a은 발성 i-Dector (utt-leDel fe1t) 보상 fr1meEor: 제안 – ())
§ (단G c습+ multi-t1s: le1rning의 일종으로 eS
§ a은 발성 i-Dector 입력 à -ncoder b과 f J 발성 i-Dector와 비교
+ decoder b과 f a은 발성 i-Dector와 비교(두 loss의 d 이용)
45
J. .uo et 1l., )0(8
,eep neur1l netEor: 21sed i-Dector m1pping for spe1:er Derific1tion using s8ort utter1nces, J. .uo et 1l., 0peec8 communic1tion )0(8.
감사합니다 J

More Related Content

More from NAVER Engineering

디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIX디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIXNAVER Engineering
 
진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)NAVER Engineering
 
서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트NAVER Engineering
 
BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호NAVER Engineering
 
이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라NAVER Engineering
 
날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기NAVER Engineering
 
쏘카프레임 구축 배경과 과정
 쏘카프레임 구축 배경과 과정 쏘카프레임 구축 배경과 과정
쏘카프레임 구축 배경과 과정NAVER Engineering
 
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기NAVER Engineering
 
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)NAVER Engineering
 
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드NAVER Engineering
 
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기NAVER Engineering
 
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활NAVER Engineering
 
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출NAVER Engineering
 
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우NAVER Engineering
 
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...NAVER Engineering
 
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법NAVER Engineering
 
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며NAVER Engineering
 
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기NAVER Engineering
 
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기NAVER Engineering
 

More from NAVER Engineering (20)

React vac pattern
React vac patternReact vac pattern
React vac pattern
 
디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIX디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIX
 
진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)
 
서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트
 
BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호
 
이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라
 
날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기
 
쏘카프레임 구축 배경과 과정
 쏘카프레임 구축 배경과 과정 쏘카프레임 구축 배경과 과정
쏘카프레임 구축 배경과 과정
 
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
 
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
 
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
 
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
 
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
 
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
 
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
 
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
 
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
 
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
 
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
 
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
 

Raw waveform dnn

  • 1. 2019. 1. 10 Raw waveform을 이용한 화자 인증 및 짧은/원거/ 발성에 대한 보상 연구 소개 발표자: 정지원 서울시립0학교 지능형29연구실 *본 발표 자료는 *눔명조 폰트를 :용하여 작성1었습.다
  • 2. Table 2. C21te1t4 1. D자 인증 2. Raw wave.23m DNN을 이용C D자 인증 시스템 3. Raw wave.23m DNN을 이용C 짧은 발성 보상 시스템 4. Raw wave.23m DNN을 이용C 원거리 발성 보상 시스템 2
  • 4. v 입력D 발성의 음성 정보를 이용f여 대상 g자(ta5get spea1e5)의 발성과의 일치 여부를 e별f는 기술 g자 인a 4화자 인증 Ra9 9a8efo52 DNN 짧은 발성 보상 원거리 발성 보상 g자 1 g자 % g자 인a R스템 대상 g자) g자 1 “안녕 N리:” “안녕 N리:” 유사도 (% % 유사도 58 % X 승인 거부
  • 5. v 화자 fn 시스s 동i 과정 화자 fn 5화자 -증 )*w w*veform D(( pb 발성 R상 a거N 발성 R상 등록 과정 ((ff-line) 평) 과정 ((n-line) n개d 화자 특o 화자 특o 추r D(( n개d 등록 발성 별도로 사전 w습 수행 화자 모델 w습 화자 모델 평: 발성 화자 특o 추r D(( 화자 특o 화자 fn 승f / 거부 fn k수와 g계값을 (사전에 정d) 비교 * n: 시나N오 상 정d된 1 e상d 정수 * 화자 특ob 본 발v m에 spe*1er embeddin/e라고도 부릅니D
  • 6. v f향 yq & 화l yq § f향 yq) 발성g f향 o보R 담고 있는 yq § 단위 시F 당 (eC 2( ms) 고oN sag 벡x 형w § ,C) M-**, Mel&ener5ies, E § 화l yq) 발성e 발화한 화l에 M한 o보R 담고 있는 yq § nt 발성e 고oN sag 벡x 형w로 uv § 화l ip에서는 입력 발성c로부x s례M로 f향 yq uv 후 이R 활용하여 화l yqe uv하는 방식이 보편m 화l ip 6화자 인증 Raw wavef:rm DNN r은 발성 보상 a거리 발성 보상 * M-** ) Mel&frequen2D 2epstral 2:effi2ient
  • 7. 2. Raw waveform DNN을 2용한 화자 인증 시.템
  • 8. v l향 특징 사g 추n § *-- e구 활성화 nr: 사r yac M반하d 추출한 l향 특징 사g § ,FCC, ,el-energies, F § *-- e구 활성화 n후: s차 특징 추출 과tk 덜 거진 l향 특징k 사g § Core ide0: Mvc tm된 l향 특징 추출 b고리w보다 *--n Tn터c M반해 추출하는 특징n R 우수할 가능성n pl § ,FCC à ,el-energies à spe2trogr0: à R0D D0Cefor: § R0D D0Cefor:k ng하는 화q o증은 2018N도c 처l 소개됨 R0D D0Cefor: *-- 8화q o증 Raw waveform DNN 짧은 발성 보상 i거리 발성 보상 * ,FCC : ,el-frequen2y 2epstr0l 2oeffi2ient FFT : f0st Fourier tr0nsfor: *CT uf ,el-s20le filter10n8 uf FFT, DindoDing uf
  • 9. v )pec:rogram과 raw waveform을 d력t는 DNNa m이 § )pec:rogram: 시간 o에 따라 Sg에 ha된 각 frequency responseN rv § )pec:rogram을 d력t는 DNN: Di에 np된 주q수 대역들을 활용 ↔ (aw waveform을 d력t는 DNN: DNN 내Rf으로 s요u 주q수 대역 np (aw waveform DNN 9we c증 Raw waveform DNN l은 발성 보상 원거리 발성 보상 (aw waveform 예시 ,a:a shape: (#:ime, #channel# )pec:rogram 예시 ,a:a shape: (#:ime, #frequency, #channel#
  • 10. v R8w w8vefDrB .22t 첫 cDCv 필터들u c는 R § P 필터가 n러 z파h Yot frequeCcM reHpDCHe를 동im 추출 § 누적 frequeCcM reHpDCHe 관찰 § 1,000 HN u하 중심 (화w v증 l플a케ugt Sp) § 기y h8Cdcr8fI s향 특징me T려하지 k던 Tz파 Yo (),000 HN ud) 또한 추출 R8w w8vefDrB .22 10화w v증 Raw waveform DNN 짧r 발f cd q거a 발f cd *Spe8ker recDgCiIiDC frDB r8w w8vefDrB wiIh HiCcCeI, 1. R8v8CeAAi, 7. ,eCgiD 첫 cDCv 필터들t frequeCcM reHpDCHe 첫 cDCv 필터들t 누적 frequeCcM reHpDCHe *TDw8rdH direcIAM BDdeAiCg r8w Hpeech HigC8A fDr Hpe8ker verific8IiDC uHiCg C22H, 0CASSP(01*, H. 1uckeChirC eI 8A.
  • 11. v 01w w1Deform ,// 모J I조 – Ape1:er em2edding extr1ction § 입력* r1w w1Deform / 출력* Ape1:er em2edding 01w w1Deform ,// 11화자 인증 Raw waveform DNN 짧은 N성 보상 R거리 N성 보상 *ADoiding Ape1:er oDerfitting in end-to-end ,//A uAing r1w w1Deform for text-independent Ape1:er Derific1tion, .. .ung et 1l, -nterApeec8 2018.
  • 12. v Raw waLefoHD 0NN f델 구v – 1*1 (eEd-to-eEd) f델 § ta, 등c gk과 평P gkr Haw waLefoHD / 출a, 화u sw S과 § .-LectoH*, 화u f델(등c gk)과 평P gkpbi터 추출한 IpeaBeH eD:eddAEg 간r 관계d 나타내는 특징 § 두 ta 특징m 대해 eCeDeEt-wAIe 합/차/곱 l행한 뒤 nS Raw waLefoHD 0NN 12화u sw Raw waveform DNN y은 gk h상 oRe gk h상 *SpeaBeH LeHAfAcatAoE uIAEg BeHEeC-:aIed :AEaHN cCaIIAfAeHI wAth :AEaHN opeHatAoE deHALed featuHeI, 2. 4ee, I/-SSP *()4.
  • 13. v 2NN g델 à 8ST9 g델 à 424 g델 확장 이x § 한번s 확장된 g델을 학n하f w래 taNks는 더 강인하지d% h표 taNk m능 저하될 T능m 높p짐 § DNNs 한번s t러 작r을 학n하는 W은 어av à9uHti-NteL tMaiJiJD* 이u하t CMaIe-HeveH% utteMaJce-HeveH% tMiaH-HeveH로 확장o키e 학n RaR RaveCoMI DNN 13화자 인증 Raw wav()orm D%% 짧은 im kl w거c im kl 시스템 화자 식별 정확도 동일오류율 (%) RW2NN-8ST9 (R(o IuHti-NteL) 1..* % **.0 % RW2NN-8ST9 (R IuHti-NteL) 1,.. % 1.2 % RW424 (R(o IuHti-NteL) *-./ % RW424 (R IuHti-NteL) 0.0 % * 7oiJt tMaiJiJD oC eSLaJded eJd-to-eJd DNN CoM teSt-deLeJdeJt NLeakeM veMiCicatioJ% 5. 5eo et aH.% 6JteMNLeecE 2)*/.
  • 14. v OverfittiCgt m화하R 위한 R법 § 3) regul9riz9tiDC (weight de:9L) 등v 정규화 R법 적ow 중n § 1DCv s닉층v stride를 통한 정c 압축c다, 6DDliCg l9Ler do하는 Pw r리 § 1DCv s닉층0 파라미터 R반 동z à 학i Ww터, 목적 함g에 l향 받u N 6DDliCg s닉층s 단h 압축 79w w9vefDrm 244 14화y 인증 Raw wav()orm D%% 짧s af ce pO리 af ce 시스템 화자 식별 정확도 동일오류율 (%) 78144 (w/D weight de:9L) ..%. % (4%/ % 78144 (w weight de:9L) /0%0 % ()%3 % 78144 (w/D pDDliCg) 7.%, % (.%/ % 78144 (w pDDliCg) /4%( % (0%0 %
  • 15. v 성N mW 연L § 0nGeEsDeech 20%8 f출 당시 시스l U 성N § ne 시스l U 성N 4:I I:vefCEm -NN 15o자 bh Raw wav()orm D%% 짧은 T성 VW 원거S T성 VW 시스템 동일오류율 (%) 4WCNN %0.0 % 4WCNN-1S62 8.7 % 4W.2. 7.4 % 시스템 동일오류율 (%) 4WCNN 6.2 % 4WCNN-G47 4.8 % 4W.2. 4.0 % 동c 오R율: 8CxCeleb% 데a터셋 M준
  • 16. v h능 wg k구 § GRGGdy SGCREJ § LST8대신 GRU를 fl § .ETiVCTiPO HUOETiPO- RGLU à LGCLy RGLU § :pTiNiYGR- SG1 à .8SGRCd* § b적vi u가 § 0GOTGR MPSS** § BGTWGGO SpGCLGR MPSS*** § 199 구r d경 RCW WCVGHPRN 199 16화p os Raw waveform DNN tn ch eg m거a ch eg * :O TJG EPOVGRIGOEG PH .dCN COd DGyPOd, 6. SCSJCOL GT CM., I0LR )0(8. ** . diSERiNiOCTiVG HGCTURG MGCROiOI CppRPCEJ HPR dGGp HCEG RGEPIOiTiPO, B.AGO GT CM., 200V )0(*. *** 2Od-TP-GOd MPSSGS DCSGd PO SpGCLGR DCSiS VGETPRS COd CMM-SpGCLGR JCRd OGICTiVG NiOiI HPR SpGCLGR VGRiHiECTiPO, H. HGP GT CM., (SUDNiTTGd TP I0.SSP )0(,).
  • 17. v 성S p상 b구 L ,:At:D loEE § ,oD: id:6: 부V 내 분산f C:A6liz: 16w w6v:foDm D00 17화i h증 Raw waveform DNN le 발성 Y상 d거W 발성 Y상 xi: 샘nxg :mb:ddiAg ci: 샘nx가 aoR 부Vg c:At:D N + diEcDimiA6tiv: f:6tuD: l:6DAiAg 6CCDo6ch foD d::C f6c: D:cogAitioA, Y.W:A :t 6l., .,,V (01). 2oftm6x loEE 단독 사c 2oftm6x loEE + ,:At:D LoEE (!: ,:At:D loEEg 가중m)
  • 18. v f능 향c k구 – BeCEeen Bpe1keA loBB § CoAe ide1: em2edding nR층N 출력층 b이 Eeig8C m1CAix를 화s별 21BiB 벡터V로 해e à cenCAoid로 bl § 전체 a류p cenCeAVo 동hj 고려하는 것이 가능함 § tl 결N0oxCele21 화s rw, DCAS, %018 c황ri S이터gjd 각 10 % v도p 추가 f능 향c 확r R1E E1DefoAm DNN 18화s rw Raw waveform DNN xn 발f 보c m거리 발f 보c Ei: 화s ip 21BiB 벡터 E:: 화s :p 21BiB 벡터 v f능 향c k구 – BeCEeen Bpe1keA loBB § CoAe ide1: em2edding nR층N 출력층 b이 Eeig8C m1CAix를 화s별 21BiB 벡터V로 해e à cenCAoid로 bl § 전체 a류p cenCeAVo 동hj 고려하는 것이 가능함 § tl 결N0oxCele21 화s rw, DCAS, %018 c황ri S이터gjd 각 10 % v도p 추가 f능 향c 확r R1E E1DefoAm DNN 17화s rw Raw waveform DNN xn 발f 보c m거리 발f 보c Ei: 화s ip 21BiB 벡터 E:: 화s :p 21BiB 벡터
  • 19. v 성능 향상 연구 – DNN 구조 변경 § R베딩의 추상화 정9를 일치시킴 (6존 방식N 9개 블록 추상화, 6개 블록 사용) ()w w)vefor, DNN 19화자 인증 Raw waveform DNN 짧N 발성 D상 원거리 발성 D상 6존의 모델 확장 구조 변경된 모델 확장 구조 Raw Waveform Length: 59,049 (=310 ) Raw Waveform Length: 59,049 (=310 ) GRU # cells: 1024 fully connected # nodes: 128 fully connected # speakers: 1211 softmax activation strided conv 3, 3, 128 batch norm ×2 ×4 conv 1d 1, 1, 256 global average pooling batch norm fully connected # nodes: 128 fully connected # speakers: 1211 dropout 0.5 <RWCNN architecture> ×2 ×4 strided conv 3, 3, 128 batch norm <RWCNN-GRU architecture> pre-emphasis conv 2, 1, 1 pre-emphasis conv 2, 1, 1 softmax activation speaker feature conv block # kernel: 128 conv block # kernel: 256 conv block # kernel: 128 conv block # kernel: 256
  • 20. 3. Raw waveform DNN을 이용한 짧은 .성 보상 3스템
  • 21. v wm 발성 h구o 필요성 (() § 화s 인u f플리케pag서 요구하T 발성 Sp ↔ d험g 사k되T 발성 Sp § r력 발성o SpN wev면, 성능p 크P 하락 § ic ( – i-vectDr Rt *0 초 à )초 21화s 인u Raw wavefDrB 0NN 짧은 발성 보상 l거리 발성 보상 Raw wavefDrB 0NNn pk한 wm 발성 보상 c스템 * SEeaker verificatiDC with shDrt ItteraCces, a review Df. ChaAAeCges, treC:s aC: DEEDrtICities, -. 4D::ar et aA., 217 .iDBetrics, )0(7.
  • 22. v 짧r 발d mUt 필od (*) § 화자 v증 k플리케uelc oU하는 발d Wu ↔ i험l ap되는 발d Wu § w력 발dt WuR 짧아지면% d능u 크게 하락 § nh * - 8aP PaveAIrG 2NN 기준 , 초 ub à *.(, 초 22화자 v증 8aP PaveAIrG 2NN 짧은 발성 보상 원S리 발d 보b 8aP PaveAIrG 2NNs up한 짧r 발d 보b hf템 시스템 5 0 .상 3.59 0 2.05 0 8W1NN-38U (3.,9 초 학g) -.,) % ..-* )*..( % 8W1NN-38U (*.(, 초 학g) )*.(. % * 9CIrt Ntterance cIGJensatDIn Dn sJeaker verDADcatDIn vDa cIsDne-based teacCer-stNdent learnDng IA sJeaker eGbeddDngs% 5. 5Nng et al.% (sNbGDtted tI I10997 *()9).
  • 23. v 기u 짧k 발성 fN 방향: 발성 단i 특징 보상 § 짧k 발성 i-HectoD를 P 발성 i-HectoDn coDDGpted :e5tGDe로 간v § Denoising 5Gto-encodeD Nt를 통한 짧k 발성 i-HectoD 보상 23 25I I5He:oDm D00l og한 짧k 발성 보상 ba템 화자 pw 25I I5He:oDm D00 짧은 발성 보상 h거Y 발성 보상 Deep stDGctGDe를 M려 (cs로R sh5lloI netIoDk으로 c험) Test 할 때R og하지 dm 낮k 혼합 수 ,MMe T한 1osteDioD 벡터 (추가 r보) 짧k 발성 i-HectoD P 발성 i-HectoD Denoising 5GtoencodeD-b5sed spe5keD :e5tGDe DestoD5tion :oD GtteD5nces o: shoDt dGD5tion, -. Y5m5moto et 5l., .nteDspeech (01).
  • 24. 24 05w w5ve:orm ,..l ni한 v은 발b ]a ec템 화s ou 05w w5ve:orm ,.. 짧은 발성 보상 원거리 발b ]a v Te5cher-DEu8enE (T1) le5rning (() § Te5cher ,..로부터 wy한 Do:E l5bell ni해 DEu8enE ,.. 학d § -x) /ne-hoE: [0, (, 0, 0, 0] / 1o:E-l5bel: [0.0), 0.8, 0.(, 0.0)] § 1o:E-l5bel은 /ne-hoEg 비해 ,..m p[화 bS 향an ]O됨 § 1Eu8enE ,..과 Te5cher ,..m y력층 값 간m c5Eegoric5l croDD-enEropy N산 § 1Eu8enE ,..은 Ee5cher ,..g 비해 bS 하락 hon rR a태 § t은 모T 크기 (모T fx) § 원거리 발b 입력 (원거리 발b ]a)
  • 25. 25 0aw waDe7orm DNN을 RN한 짧은 발성 IJ 시L템 화T S증 0aw waDe7orm DNN 짧은 발성 보상 원거리 발성 IJ *.arge-scale domain adaptation Dia teacher-student learning, -. .i, ,nterspeech )0(*. v 2eacher-student (21) learning ())
  • 26. v 9eacheJ-student leaJnCnA Rn를 ibw 짧f 발성 보상 § :tteJance-leNel T신 Ihoneme-leNel seAment mh 후 보상 § Raw waNefoJm 255 featuJe maIg Ihoneme-leNel seAmentU로 해석 § 9eacheJ-student leaJnCnAg 짧f 발성 보상a ts로 lb 26 Raw waNefoJm 255g ibw 짧f 발성 보상 시스u 화k 인o Raw waNefoJm 255 짧은 발성 보상 c거리 발성 보상 * ShoJt utteJance comIensatCon Cn sIeaDeJ NeJCfCcatCon NCa cosCne-based teacheJ-student leaJnCnA of sIeaDeJ embeddCnAs, J. JunA et al., (submCtted to 310SS6 *().#. ShaIe: (#tCmesteI, #feat dCm(*,-## P tCmesteIg )3(ms Sdh *,-r vpe로 해석 Raw Waveform Length: 59,049 (=310 ) Raw Waveform Length: 59,049 (=310 ) GRU # cells: 1024 fully connected # nodes: 128 fully connected # speakers: 1211 softmax activation strided conv 3, 3, 128 batch norm ×2 ×4 conv 1d 1, 1, 256 global average pooling batch norm fully connected # nodes: 128 fully connected # speakers: 1211 dropout 0.5 <RWCNN architecture> ×2 ×4 strided conv 3, 3, 128 batch norm <RWCNN-GRU architecture> pre-emphasis conv 2, 1, 1 pre-emphasis conv 2, 1, 1 softmax activation speaker feature conv block # kernel: 128 conv block # kernel: 256 conv block # kernel: 128 conv block # kernel: 256
  • 27. v 짧e 발성과 P 발성g sC9ak9D 9mb9ddiAg pl 비N § 기n: s력t 간g 보상h sC9ak9D 9mb9ddiAg에 간lkdR a향 미u § m안: 짧e 발성과 P 발성g sC9ak9D 9mb9ddiAgg cosiA9 distaAc9S 목k함수에 rJ 27 RaI Iav9:oDm .11f hbw 짧e 발성 보상 시스v 화자 io RaI Iav9:oDm .11 짧은 발성 보상 c거리 발성 보상 * ShoDt utt9DaAc9 comC9AsatioA iA sC9ak9D v9Di:icatioA via cosiA9-bas9d t9ach9D-stud9At l9aDAiAg o: sC9ak9D 9mb9ddiAgs, 0. 0uAg 9t al., (submitt9d to I-,SS2 )0(*).
  • 28. v PhoneDe-CeveC IegDenJ à UJJer9nce-CeveC eD:eddAng § RW-22: ,ver9ge § RW-22-GRU: GRU R부적h로 P합 § GRUN JADeIJeGe 따른 GhoneDe-CeveC IegDenJ R부 포함U kb r보e 따W P합 방향 Pr § vi 발a 보상e서l Te9cher-IJudenJ Ce9rnAng § 긴 발a R부e tp하S 풍부한 kb r보l P합 방향을 mf해, vi 발al 부s한 kb r보로T r확한 uJJer9nce-CeveC eD:eddAng wr 28 R9w w9veforD .22을 mf한 vi 발a 보상 dc템 화o nu R9w w9veforD .22 짧은 발성 보상 g거리 발a 보상 * ShorJ uJJer9nce coDGenI9JAon An IGe9ker verAfAc9JAon vA9 coIAne-:9Ied Je9cher-IJudenJ Ce9rnAng of IGe9ker eD:eddAngI, 1. 1ung eJ 9C., (Iu:DAJJed Jo 0-,SSP )0(*).
  • 29. * ShorJ uJJer9nce coDpenI9JAon An Ipe9ker verAfAc9JAon vA9 coIAne-:9Ied Je9cher-IJudenJ Ce9rnAng of Ipe9ker eD:eddAngI, 4. 4ung eJ 9C., (Iu:DAJJed Jo I10SS6 *().#. v 보상 ir Ipe9ker eD:eddAng 시각화 § oN 세n에서 선lp gcc ,S 화hc 발성 시각화 (f반화 성능 시각화# 29 R9w w9veforD 255b d용p ka 발성 보상 시스m 화h e증 R9w w9veforD 255 짧은 발성 보상 원PR 발성 보상 Sh9pe: (#JADeIJep, #fe9J dAD(*,-## à (#fe9J dAD(),(*4##
  • 30. v 보상 전후 성능 i교 § e표2 동일 오bt 기준 )*.0( %v 0.7* %까지 보상하는 W § +.-1 초 à *.(-초 f성 길w g화p 따c 성능 하a .- % 보상 확x 30 RaT TaSeGMOK 4::v wr한 짧u f성 보상 om템 화자 x증 RaT TaSeGMOK 4:: 짧은 발성 보. sVd f성 보상 시09 ( 초 5. 3.() 초 2.%( 초 RW3::-6RU (+.-1 초 학n) 7.-) % 0.7* % )*.0( % RW3::-6RU (*.(- 초 학n) )*.(0 % 시09 동일2류3 (%) ORtNRt(78-4iS) (MOigiLal TS) )*.4. % 5KCeEEiLg (9S5) )(.10 % 5KCeEEiLg (DMs siK) )(.0( % 5KCeEEiLg (DMs siK) % ORtNRt (78-4iS) )(.(0 % *VMU3eleC) 데w터l 기준 성능
  • 31. 4. Raw waveform DNN을 이용한 원.리 발성 보상 시4템
  • 32. v a거R 발성 연Ie s요성 § Sfp와 화i 간e 거R nFJ 화i gn 시스템 성능 t락e m요 요g § kd, 잔w 등e l보F d성에 rv § 다양u h력 발성 거R에 NQ 성능 예시 32화i gn RaE EaDeform D-- ob 발성 보상 원거리 발성 보상 RaE EaDeform D--c f용u a거R 발성 보상 시스템 * *ar-field speaker reco7nition, .. ,in et al., IEEE transactions on audio, speech, and lan7ua7e processin7, 0eptem2er 2007.
  • 33. v a거R 발성 연Ie s요성 § Sfp와 화i 간e 거R nFJ 화i gn 시스템 성능 t락e m요 요g § kd, 잔w 등e l보F d성에 rv § 다양u h력 발성 거R에 NQ 성능 예시 33화i gn RaE EaDeform D-- ob 발성 보상 원거리 발성 보상 RaE EaDeform D--c f용u a거R 발성 보상 시스템 * *ar-field speaker reco7nition, .. ,in et al., IEEE transactions on audio, speech, and lan7ua7e processin7, 0eptem2er 2007.
  • 34. v 기d 원거R 발성 연N 소개 § 음k if 보상 K 8eDeveDbeDatiBA, :eatuDe IaDCiAg 등 § -11 등 SP을 a용한 보상 § BDi8geAet*: laJeD-Iise cBAAectiBAs, DecuDsive aDchitectuDe 34lc be RaI Iave:BDm -11 g은 발성 보상 원거리 발성 보상 RaI Iave:BDm -11을 a용한 원거R 발성 보상 시스h * BDi8geAets: stu8eAt-teacheD tDaAs:eD leaDAiAg base8 BA DecuDsive AeuDal AetIBDks aA8 its aCClicatiBA tB 8istaAt sCeech DecBgAitiBA, J. 0im et al., .,*SS2 2018.
  • 35. v 근거리%m거리 발성i 대한 성능 불균형 § 기존 보상을 진행하지 go 모S. m거리 발성i 대한 성능 v하 § 38ach8r-stD78nt l8arnin: 을 rl한 보상. m거리 발성i 대한 성능 향상, 5Dt %거리 발성에 대한 성능 감소 35화u s증 1aw wav89orm /00 짧o 발성 보상 원거리 발성 보상 1aw wav89orm /00을 rl한 m거리 발성 보상 db템 교사 학생 f층e경망을 활l한 다채N m거리 화u s증, w지m 외, 한국음향학회지 201,. 시스템 %거리 (일오)율 (%) 원거리 (일오)율 (%) 근거리 발성 학c 3.2 % -., % m거리 발성i 대한 32 보상 10.5 % 2.7 % Tt 오류n. 한h대 u체 a집 Rr터셋 기준
  • 36. v 근거리/m거리 발성i 대한 성S 불균형 완화 – ()) § 학ds 완료된 t9a7h9r 122을 stD89nt 122r 초기값n로 사l (59a7h9r initialization) § StD89nt 122s 학d할 것0 화u f별 + m거리 보상 à m거리 보상 36화u tw 3aw wav9:orm 122 짧o 발성 보상 원거리 (성 )상 3aw wav9:orm 122을 sl한 m거리 발성 보상 ec템 교사 학a h층신경망을 활l한 TzR m거리 화u tw% v지m 외% 한N음향학회지 2().. 시스템 근거리 %일오류율 (%) 원거리 %일오류율 (%) 근거리 발성 학d +.2 % /.. % m거리 발성i 대한 5S 보상 )(., % 2.7 % 59a7h9r initialization /.. % ).. %
  • 37. v 근거리/S거리 발성에 대한 성능 불균a 완화 – (&) § 기존의 ,S S거리 학N: § ,eac2er ())에 근거리, stu/ent ())에 S거리 발성 입력 § 변경D ,S 학N: § ,eac2er ())에 근거리, stu/ent ())에 S거리 발성 입력 & ,eac2er ())에 근거리, stu/ent ())에 근거리 발성 입력 37화자 인증 Raw wa:eform ()) 짧T 발성 보상 원거리 발성 보상 Raw wa:eform ())을 이R한 S거리 발성 보상 시스템
  • 38. v 근거리/원거리 발성f T한 성R 불N형 완화 – (2) § 기tn 5S 원거리 학습0 § 59a7h9r 122f 근거리% stD89nt 122f 원거리 발성 입력 § 변경된 5S 학습0 § 59a7h9r 122f 근거리% stD89nt 122f 원거리 발성 입력 & 59a7h9r 122f 근거리% stD89nt 122f 근거리 발성 입력 38화r 인u 3aw wav9:orm 122 w은 발성 보상 원거리 (성 )상 3aw wav9:orm 122l oi한 원거리 발성 보상 ca템 교사 학생 ezd경망l 활i한 S채널 원거리 화r 인u% sv원 h% 한국m향학회v 2().& 시스템 근거리 %일오류율 (%) 원거리 %일오류율 (%) 근거리 발성 학습 3&2 % /&. % 원거리 발성f T한 5S 보상 )(&, % 2&7 % 59a7h9r initialization /&. % )&. % 5S 보상 c 근/근 학습 추가 2&, % 2&7 %
  • 39. (추가) 최근 Raw wavef()m 관련 연구 및 짧은 발성 보상 화자인식 논문 소개
  • 40. v S/1,1.T § 2aw wavefCrm -11의 첫S째 cCBv Y닉b을 T로X gc로 제안 § 0el-filter8aBk 의 cIt-Cff freEIeBcyR 이용f e터 aNh § 적Y Darameter (filter당 )M) / f석이 용이 40 0. 2avaBelli, Y. BeBgiC, )0(8 SDeaker recCgBitiCB frCm raw wavefCrm with siBcBet, 0. 2avaBelli, Y. BeBgiC, arXiv.
  • 41. v 2aG Gave8orm을 생성f는 GA0 a안 § ,CGA0(2a68or6 eD al., 201()L 유사 구조 이용 § a안g 1haCe Chu88le NS 이용 § ,iCcriminaDor가 생성된 P이e의 일정g cN성을 이용h 분별f는 것 Rd 41 C. ,onahue eD al., 201) SynDheCiIing au6io GiDh GA0C, C. ,onahue eD al., .CL2 GorkChoA 201).
  • 42. v 2aG Gave8orm을 생성f는 GA0 a안 § ,CGA0(2a68or6 eD al., 201()L 유사 구조 이용 § a안g 1haCe Chu88le NS 이용 § ,iCcriminaDor가 생성된 P이e의 일정g cN성을 이용h 분별f는 것 Rd 42 C. ,onahue eD al., 201) SynDheCiIing au6io GiDh GA0C, C. ,onahue eD al., .CL2 GorkChoA 201).
  • 43. v 2aG Gave8orm을 생성f는 GA0 a안 § ,CGA0(2a68or6 eD al., 201()L 유사 구조 이용 § a안g 1haCe Chu88le NS 이용 § ,iCcriminaDor가 생성된 P이e의 일정g cN성을 이용h 분별f는 것 Rd 43 C. ,onahue eD al., 201) SynDheCiIing au6io GiDh GA0C, C. ,onahue eD al., .CL2 GorkChoA 201).
  • 44. v 짧은 J성 8-ve2tor (utt-:eve: fe0t) 보상 fr0meDork 제안 – (() § )단계 학습: G J성 & 짧은 J성 8-ve2tor S력 후 복원 à 짧은 J성 8-ve2tor S력 후 G J성 8-ve2tor 출력 학습 44 .& -uo et 0:&, )0(8 ,eep neur0: netDork 10sed 8-ve2tor m0pp8ng for spe0ker ver8f820t8on us8ng short utter0n2es, .& -uo et 0:&, Spee2h 2ommun820t8on )0(8&
  • 45. v a은 발성 i-Dector (utt-leDel fe1t) 보상 fr1meEor: 제안 – ()) § (단G c습+ multi-t1s: le1rning의 일종으로 eS § a은 발성 i-Dector 입력 à -ncoder b과 f J 발성 i-Dector와 비교 + decoder b과 f a은 발성 i-Dector와 비교(두 loss의 d 이용) 45 J. .uo et 1l., )0(8 ,eep neur1l netEor: 21sed i-Dector m1pping for spe1:er Derific1tion using s8ort utter1nces, J. .uo et 1l., 0peec8 communic1tion )0(8.