13. SMT 시스템 구조
Monolingual
Corpus
Bilingual
Corpus
Alignment &
Phrase extraction
N-gram
Translation
Model
Language
Model
Pr( f1J | e1I )
f1 f 2 f J
tokenizer
Pr(e1I )
decoder
generator
I
I
ˆ
e arg maxe[P (f1J | e1 ) P (e1 )]
Search task
Translation model
Fundamental Equation of MT
language model
e1e2 eI
14. SMT 시스템 개발 과정
Monolingual
Corpus
Bilingual
Corpus
Alignment &
Phrase extraction
N-gram
Translation
Model
Language
Model
Pr( f1J | e1I )
f1 f 2 f J
tokenizer
Pr(e1I )
decoder
NAVER
자체 개발
generator
e1e2 eI
15. Translation Model 학습
Bilingual Corpus
GIZA++ (IBM Model)
K2J Word
Alignment
J2K Word
Alignment
Alignment Symmetrization
Bi-directional
Word
Alignment
Phrase Extraction Heuristic
Phrase-Table
16. 학습된 Translation Model
PB
Source
아침/NOUN 은/JOSA
朝/NCA ご飯/NCC は/PC
0.750 0.116 0.050 0.001
아침/NOUN 은/JOSA
朝/NCA に/PS は/PC
0.045 0.229 0.017 0.026
아침/NOUN 은/JOSA
Target
Probability
朝/NCA は/PC
0.333 0.229 0.517 0.415
Source
Target
for a long time
오랫동안
0.133 0.030 0.388 0.015
am afraid of X1
X1을 무서워하다
0.922 0.002 0.930 0.005
not only X1 but also X2
X1 뿐만 아니라 X2
0.136 0.001 0.105 0.020
X1 as well as X2
X2 뿐만 아니라 X1
0.901 0.002 0.041 0.002
HPB
Probability
29. 번역기 품질 평가
정량적 평가(Automatic Evaluation) : BLEU
정성적 평가(Human Evaluation) : Blind Test (3점 척도)
평가 문장 설계
만화
자막
신문
6%
문어체(50%)
13%
13%
매뉴얼
15%
TESTSET
출처 분포
SNS
15%
Wiki
8%
구어체(50%)
게시판
8%
e-mail
회화
문학
8%
6%
8%
30. 비교 평가 결과
2011년말 평가
BLEU평가(2400문장), Human Evaluation(200문장)
한일번역기 3개 경쟁사와 번역 품질 비교
KJ BLEU
50
41.95
41.71
40.7
40
KJ Human Eval.
60
45
A
33.74
46.75
B
50
40.25
40
30
20
20
10
0
0
A
B
C
NSMT
JK BLEU
50
42.94
34.41
40
38.8
C
NSMT
JK Human Eval.
41.43
60
51.5
43
A
B
48.75
C
NSMT
44
40
30
20
20
10
0
0
A
B
C
NSMT
31. SMT 개발 FLOW
리소스 확보
병렬데이터
품사 tagger
기본 실험
심화 실험
Decoding 방식 결정
parameter 튜닝
내부 모델간 경쟁
경쟁사와 비교실험
오류 분석
개선을 위한 노력
유지보수
오류 수정
customizing
기능 추가
33. Pre-Reordering (영어->한국어)
영어의 어순을 Dependency-Parser결과와 Reordering Rule을 이용해서 수정
참고논문: Using a Dependency Parser to Improve SMT for Subject-Object-Verb Languages, Franz Och, ACL 2009
35. Pre-Reordering (영어->스페인어)
형용사/명사 열에서 영어/스페인 어순 다름
I
PRP
ME
PP
like
VBP
gusta
VMI
the
DT
Spanish
JJ
jugador
NC
el
DA
soccer
NN
de
SP
player
NN
fútbol
NC
español
AQ
학습 및 입력 단계에서 어순을 수정 후 번역
I
PRP
ME
PP
like
VBP
gusta
VMI
the
DT
el
DA
player
NN
jugador
NC
soccer
NN
de
SP
Spanish
JJ
fútbol
NC
español
AQ
37. 2-Step SMT (한국어->영어)
English에 대해서 parser를 이용한 Pre-Reordering
Intermediate English (IE) 생성
(한국어-IE, IE-English Translation Table학습)
한국어-IE 간의 번역 (Step 1)
IE-English간의 번역 (Step 2)
참고논문: Post-ordering in Statistical Machine Translation. Katsuhito Sudoh, MT Summit 2011
43. QR (Query Reformulation)
사용자가 넣은 쿼리가 사용자의 의도에 적합한 문서를 찾기에 최적이 아닌 경우,
더 나은 검색 결과를 찾기 위한 쿼리 변형 (query reformulation)
ぎょうざの皮
tokenizer
<s>
ぎょうざ
ぎょうざ
+
の
の
+
皮
皮
餃子
革
行者
餃子 の 皮
</s>