2. 공감세미나발표자
김흥래 (Naver Business Platform)
자바카페 커뮤니티의 운영진이다.
심심할 틈 없이 신기술이 쏟아지는 IT와 사랑에 빠진 개발자로,
개발자간의 소통과 교류를 즐긴다.
현재 네이버 비즈니스 플랫폼에서 다양한 서비스를 개발하고 있다.
hrkim3468@gmail.com
7. 공감세미나한글 표기법
한글은 자음과 모음을 조합해서
다양한 음절(글자)을 표현 할 수 있습니다.
예) 가방
첫번째 음절 “가” : 자음(ㄱ) + 모음(ㅏ)
두번째 음절 “방“ : 자음(ㅂ) + 모음(ㅏ) + 자음(ㅇ)
8. 공감세미나한글 표기법
하나의 음절(글자)은 다시금
초성, 중성, 종성으로 나눠질 수 있습니다.
예) 가방
첫번째 음절 “가” : 초성(ㄱ) + 중성(ㅏ)
두번째 음절 “방“ : 초성(ㅂ) + 중성(ㅏ) + 종성(ㅇ)
9. 공감세미나한글 표기법
반대로 초성, 중성, 종성을 조합하면
하나의 음절(글자)을 만들 수 있습니다.
초성
ㄱㄲㄴㄷㄸㄹㅁㅂㅃㅅㅆㅇㅈㅉㅊㅋㅌㅍㅎ (19개)
중성
ㅏㅒㅑㅒㅓㅔㅕㅖㅗㅘㅙㅚㅛㅜㅝㅞㅟㅠㅡㅢㅣ (21개)
종성
ㄱㄲㄳㄴㄵㄶㄷㄹㄺㄻㄼㄽㄾㄿㅀㅁㅂㅄㅅㅆㅇㅈㅊㅋㅌㅍㅎ (27개) + 예외1개
10. 공감세미나한글 표기법
이러한 방식으로 조합해서 만들 수 있는
글자의 수는 총 11,172자 입니다.
한글로 표현 가능한 글자 수
초성(19개) * 중성(21개) * 종성(28개) = 11,172 자
12. 공감세미나한글 유니코드
한글을 컴퓨터로 처리하기 위해서
다양한 코드 처리 기법이 발전해 나갔습니다.
N바이트 한글 코드
- 한글을 풀어쓰듯이 자음과 모음을 1바이트로 처리
- 11,172개의 글자를 모두 표현 가능
- 음절을 이루는 각각의 코드가 다르므로 문자를 비교하거나 Sort 불가
예)
나 => ㄴ ㅏ (2byte)
가방 => ㄱ ㅏ ㅂ ㅏ ㅇ (5byte)
13. 공감세미나한글 유니코드
한글을 컴퓨터로 처리하기 위해서
다양한 코드 처리 기법이 발전해 나갔습니다.
3바이트 조합형 코드
- 글자 한 음절을 초성, 중성, 종성으로 나눠서 처리
- 11,172개의 글자를 모두 표현 가능
- 항상 3바이트를 사용하므로 비효율적
예)
나 => ㄴ ㅏ (3byte)
가방 => ㄱ ㅏ (3byte), ㅂ ㅏ ㅇ (3byte)
14. 공감세미나한글 유니코드
한글을 컴퓨터로 처리하기 위해서
다양한 코드 처리 기법이 발전해 나갔습니다.
KSC5601 (1987 완성형 코드)
- 정부 주도형으로 표준화
- 글자를 음절 단위로 순서대로 배치
- 각각의 음절은 고유의 2바이트 코드값을 가진다.
- 첫번째, 두번째 바이트를 사용할 수 없어 표현 가능한 코드는 94 * 94
(8836) 뿐이다.
- 11,172개의 글자를 모두 표현할 수 없다.
15. 공감세미나한글 유니코드
한글을 컴퓨터로 처리하기 위해서
다양한 코드 처리 기법이 발전해 나갔습니다.
KSC5601 (1992 조합형 코드)
- KSC5601 (1987 완성형 코드)에서 전체 글자를 표현할 수 없는 문제점 때
문에 추가로 제정된 국가 표준
- 글자를 조합형으로 표현 (초성, 중성, 종성)
- 11,172개의 글자를 모두 표현할 수 있다.
그렇다면 한글 국가 표준이 2개?
16. 공감세미나한글 유니코드
한글 표현을 위한 국내 표준인 KSC5601은 Ascii Code 기반으로
동작합니다.
1991년에 전세계 언어 표기법에 대한 Unicode 1.0이 국제 표준
으로 제정되었는데 이때 KSC5601이 포함되어 Unicode 기반의
국제 표준으로써 한글 처리 방식이 제공되고 있습니다.
Unicode에 포함된 한글 표기방식은 조합형 표기법과 완성형 표
기법이 모두 존재합니다.
20. 공감세미나한글 유니코드
한글 자모
(조합형)
한글 음절
(완성형)
- 표현 가능한 모든 글자를 처리할 수 있습니다.
- 한글 자모와 한글 음절은 상호 변환이 가능합니다.
- 완성형 음절의 코드를 적절한 공식으로 쪼개면 각각 초성, 중성, 종성의 코드가
됩니다.
한글 호환형 자모