3. 빅데이터
• 시대가 발전하고 변화하면서 정보의 분야가 다양해지고 정
보의 양이 방대해졌다. 예전에는 Text형식의 데이터들이 일
반적이었지만 이제는 이미지를 뿐만 아니라 영상까지 데이
터로써 저장되고 있다. 컴퓨터도 발전하면서 하드웨어의 발
전은 거의 포화상태에 이르렀고 세상에 몇 대 없는 슈퍼 컴
퓨터에서나 쓰이던 TB라는 저장 용량의 단위가 이제 가정용
컴퓨터에서도 일반적으로 사용하는 단위가 되어버렸다. 더
이상 데이터의 크기(나 속도)는 문제가 되지 않았고 오히려
이렇게 다양해지고 방대해진 이 데이터들에 대한 저장이나
처리기법에 대한 관심이 늘어났다.
• Mega(6) - Giga(9) – Tera(12) – Peta(15) – Exa(18) –
Zetta(21) – Yotta(24)
4. NOSQL?
•Not Only SQL
•기존의 RDBMS(Relational DataBase
Management System)과는 다른 개념의
DBMS.
–JOIN등이 쓰이지 않음
•Key – Value 형식
•Relation이 요구되지 않는 거대한 데이터에
적합!
•Statistics or Real-Time Analysis에 적합!
5. 활용
• 구글
– 검색
• 검색어와 페이지가 얼마나 밀접한 관계가 있는지
– 자동번역(통계적 기계 번역)
• 인간이 이미 번역한 것을 참고, 토대로 패턴을 조사
• IBM
– 슈퍼컴퓨터 왓슨
• 인간의 언어에 대한 이해를 기반/퀴즈쇼에서 챔피언과 겨뤄 우승
• 의료보험 데이터 분석, 종양진단 처리, 금융분야등에 활용 예정.
• 아마존
– 도서추천
• 도서 구매 데이터 분석
• 기타
– 위험관리시스템(싱가폴)
– 미국 국립보건원(NH)의 의약품 검색 등등
6. 빅데이터 처리 기술
•구글 - GFS(Google File System)
– 대용량 데이터의 분산처리를 위한 분산파일 시
스템.
Ex) BigTable(수평적 확장), MapReduce(분산처리)
•하둡(Hadoop)
– 2006년 야후 중심으로 개발 Apache Project
– 구글과 대응되는 체계(HDFS:Hadoop
Distributed File System)
• HDFS + MapReduce + HBase