SlideShare a Scribd company logo
1 of 36
Download to read offline
Bắt đầu nghiên cứu Big	
Data
ÔNG XUÂN HỒNG – DATA	ANALYST	@	KNOREX
Nội dung
Data	qua	từng giai đoạn
Bắt đầu như thế nào?
Career	path
Data	qua	từng giai đoạn:	Sticky	notes
Ưu điểm
◦ Ghi chú nhanh
◦ Tiện lợi
◦ Chỉ cần bút và giấy
Khuyết điểm
◦ Dễ thất lạc
◦ Khó tìm kiếm
Data	qua	từng giai đoạn:	Flat	files
Ưu điểm
◦ Tiết kiệm chi	phí lưu trữ
◦ Dễ tìm kiếm bằng cáchphân chia	thư mục,	đặt
tên file.
Khuyết điểm
◦ Ác mộng nếu quản lý không tốt.
◦ Khó tìm kiếm bên trong nội dung	file.
◦ Chỉ dùng để đọc ghi dữ liệu,	không phục vụ tính
toán.
Data	qua	từng giai đoạn:	Spreadsheet
Ưu điểm
◦ Có thể thực hiện tính toán.	Con	người không
thể nào tính nhẩm hay	tính tay được.
◦ Nhiều tính năng hữu ích đi kèm:	biểu đồ,	ghi
chú,	làm việc nhóm,	…
◦ Dễ sử dụng và quản lý.
Khuyết điểm
◦ Dữ liệu không được ràng buộc dễ bị sai sót.
◦ Thêm,	xoá,	sửa thông tin	không nhất quán khi
các file/sheet	có mối liên hệ với nhau.
Data	qua	từng giai đoạn:	Relational	DB
Ưu điểm
◦ Dữ	liệu	được	mô	hình	hoá	thành	các	thực	thể	
quan	hệ.
◦ Dữ	liệu	được	chuẩn	hoá	và	ràng	buộc	nên	ít	bị	
sai	sót.
◦ Dễ	tìm	kiếm	thông	tin thông	qua	ngôn	ngữ	SQL.
◦ Thêm,	xoá,	sửa	thông	tin	được	nhất	quán	khi	có	
thay	đổi.
Khuyết điểm
◦ Tổng hợp dữ liệu chậm khikết bảng quan hệ.
◦ Lưu dữ liệu transaction	tỉ lệ lỗi cao hoặc bị mất
mát thông tin	khi hệ thống bị quá tải.
Data	qua	từng giai đoạn:	OLAP
Ưu điểm
◦ Xem	nhanh	dữ	liệu đã	tổng	hợp	theo	nhiều	
chiều	cùng	lúc.
◦ Hỗ	trợ	giám	sát	và	ra	quyết	định.
Khuyết điểm
◦ Không real-time.
◦ Cần lên lịch cập nhật và lưu trữ thành Data	
warehouse.
Data	qua	từng giai đoạn:	NoSQL
Ưu điểm
◦ Giải	quyết	đọc	ghi	dữ	liệu	real-time.
◦ Biểu	diễn	dữ	liệu	đa	dạng	hơn.
◦ Dễ	dàng	phân	tán/replicate	dữ	liệu	trên	nhiều	
server.
Khuyết điểm
◦ Không đảm bảo toàn vẹn dữ liệu.
◦ Dữ liệu không phản ánh được mối quan hệ.
◦ Bảo mật không cao.
◦ Hệ thống dễ bị lỗi và cần nhiều thiết lập để tối
ưu.
Data	qua	từng giai đoạn:	Distributed	file	
storage
Ưu điểm
◦ Lưu	trữ	dữ	liệu	phân	tán.
◦ Thích	hợp	lưu	trữ	các	tập	tin	dung	lượng	cao	
như	video,	âm	thanh,	hình	ảnh,	…
◦ MapReduce	giải	quyết	vấn	đề	tổng	hợp	dữ	liệu	
trên	nhiều	server.
Khuyết điểm
◦ Cơ chế MapReduce chậm,	không đáp ứng được
tổng hợp dữ liệu real-time.
◦ Sử dụng nhiều third-party đi kèm để khắc phục
khuyết điểm.
Nguyên lý chung
Chia	để trị bằng cách phân tán nguồn lực và tài nguyên ra nhiều server.
Loại bỏ các điều kiện ràng buộc về dữ liệu,	kiểm tra bảo mật để tăng tốc đọc ghi dữ liệu.
Mini-batch thành các mẫu dữ liệu nhỏ hơn để tính toán nhanh hơn.
Sử dụngcấu trúc Hash	để indexing phục vụ tác vụ tìm kiếm nhanh.
Nội dung
Data	qua	từng giai đoạn
Bắt đầu như thế nào?
Career	path
Bắt đầu như thế nào?
Xác định vấn
đề gặp phải
Tìm kiếm công
cụ tương ứng
Test	thử một
thời gian
Ứng dụng vào
hệ thống
Ghi nhận và
tinh chỉnh
01	- Vấn đề lưu trữ
Dữ liệu sinh ra nhiều trongtừng giây.
Ví dụ:	emails,	Facebook	messages,	photos,	
video	clips,	sensor	data.
Message	queue: Kafka,	Kinesis,	SQS,	
RabbitMQ.
Distributed	file	storage: Hadoop,	Amazon	S3,	
Google	cloud	storage.
NoSQL: MongoDB,	Cassandra,	Redis.
SQL: PostgreSQL.
Case	study:	tracking	dữ liệu
~	1,000,000,000	transactions/ngày
~	42,000,000	transactions/giờ
~	12,000	transactions/giây~	23MB/s
◦ pageview: 1,8TB/ngày
◦ interaction: 90GB/ngày
Thách thức
Lưu trữ toàn bộ dữ liệu,	hạn chế mất mát thôngtin.
Lựa chọn định dạng dữ liệu phục vụ cho xửlý sau này.
Lựa chọn lưu trữ
AWS	Kinesis AWS	S3
ARENA
Media	broker
02	- Vấn đề tính toán
Tốc độ tổng hợp dữ liệu đòi hỏi cao.	Real-time
ở một số trường hợp.
Ví dụ:	tracking	quảngcáo,	report	doanh thu
theo giờ,	phút,	giây,	mạng xã hội.
Streaming: Apache	Storm,	Spark	Streaming,	
Trident,	Samza.
Computing: Apache	Spark,	Flink.
Case	study:	tổng hợp dữ liệu
Report	từ các hãng thứ ba
Tổng hợp dữ liệu
MB	Analytics	Backend/UI
Độ trễ tối đa:	2	giờ.
Nghĩa là,	vào lúc 11:00	AM,	người dùng phải
xem được report	của 9:00	AM
Tổng hợp report Tích hợp dữ liệu nguồn khác
10:00 10:05 10:15
Tiền xử lý
10:40
Thời gian còn lại…
Tổng hợp dữ liệu của 9:00	AM
Thách thức
Nhiều tác vụ cần thực hiện trong vòng 1	giờ,	không còn thời gian
cho các tác vụ tương lai
◦ Tiền xử lý dữ liệu.
◦ Tổng hợp dữ liệu.
◦ Bộ lọc Spiders	và bots.
◦ Tích hợp dữ liệu từ nguồn khác:	Facebook,	ARENA,	Google	Analytics.
Lựa chọn tính toán
40
20
10
0
5
10
15
20
25
30
35
40
45
Python Spark	1.6 Spark	2.0
Performance
Minutes
Spark	2.0
primitive Spark	1.6 Spark	2.0
filter 15ns 1.1ns
sum	w/o	group 14ns 0.9ns
sum	w/	group 79ns 10.7ns
hash	join 115ns 4.0ns
sort	(8-bit	entropy) 620ns 5.3ns
sort	(64-bit	entropy) 620ns 40ns
sort-merge	join 750ns 700ns
AWS	Kinesis AWS	S3
ARENA
Media	broker
03	- Vấn đề quản trị
Continuous	Integration/Continuous	
Development(CI/CD):	tự động hoá tiến trình
building,	testing,	và deploying	trơn tru ở nhiều
môi trườngkhác nhau (local,	staging,	
production).
Version	control: Git,	Docker
Task	management: Jenkins,	Mesos,	Chronos,	
Marathon.
Automation: Chef,	Puppet,	Ansible,	
Capistrano,	SaltStack.
Log	management: Logstash,	ElasticSearch,	
Kibana.
Mindset	về công nghệ
Event	queuing	
system
• Amazon	
Kinesis
• Apache	Kafka
Transformation
• Spark
• Storm	
streaming
Storage
• Hadoop
• NoSQL
Quản trị
• Jenkins
• Ansible
Nội dung
Data	qua	từng giai đoạn
Bắt đầu như thế nào?
Career	path
Kỹ năng cần có
0
20
40
60
80
100
Coding	(Python,	Scala,	
Java,	Shell,	NodeJS)
Database	configurations
SQL	optimizationServer	management
Networking
Data	engineer Data	analyst Data	scientist
Xây dựng hệ thống.
Monitor	hệ thống.
Backup	hệ thống.
Scaling	hợp lý với kinh phí.
Kinh nghiệm bản thân
Cần môi trường cho mình cơ hội làm việc với các công nghệ Big	Data.
Học thật kĩ kiến thức quản trị mạng và cơ sở dữ liệu để bắt kịp xu hướngdễ dàng hơn.
Viết document cho nhữngkiến trúc mình xâydựng(tại sao lựa chọn,	mục đích hệ thống,	
performance	test,	các điểm cần khắc phục).
Nên nghiên cứu thêm về độ phức tạp thuật toán để ứng dụngcho tính toán tối ưu (search,	sort,	
aggregation,	streaming,	organize	database).
Nâng cao kĩ năng làm việc nhóm và cập nhật kiến thức công nghệ nhưGit,	Dockerize,	CI/CD,	
Test	Driven	Development,	Automation	khi có thể.
Nên dành khoản tiền đầu tư cho các khoá học online	chất lượng,	đừng tiếc tiền cho việc học.
Nếu là Data	Engineer/System	admin	thì nên đầu tư lấy chứng chỉ MCSA,	CCNA,	AWS.
Câu hỏi thường gặp
Bắt đầu học Big	Data	từ con	số không nhưthế nào?
◦ Chọn một hệ quản trị cơ sở dữ liệu (MySQL,	PostgreSQL,	MongoDB).
◦ Thao tác với ngôn ngữ truy vấn SQL.
◦ Thiết kế cơ sở dữ liệu (ràng buộc toàn vẹn,	đại số quan hệ,	các dạng chuẩn dữ liệu).
◦ Mạng máy tính cơ bản (phân quyền,	chia	thư mục,	SSH,	address	forwarding,	tail	–f,	vim,	nano).
◦ Tìm hiểu về Business	Intelligent	(OLAP,	OLTP,	Star/Snowflake	schema).
◦ Tìm hiểu về Hadoop,	 MapReduce,	Apache	Spark.
Nên tự build hay	sử dụng cloud	service
◦ Tự build:	ưu điểm bảo mật dữ liệu theo ý mình,	khuyết điểm tốn kém về thời gian chi	phí,	hệ thống lỗi
thời nhanh.
◦ Cloud	service:	ưu điểm nhanh chóng tích hợp hệ thống,	khuyết điểm phụ thuộc hãng cung cấp,	chi	phí
tăng caonếu không biết kiểm soát.	(Amazon,	Google,	 Microsoft)
Câu hỏi thường gặp
Thế nào thì được gọi là Big	Data?
◦ Khi khả năng lưu trữ và tính toán không đáp ứng được nhu cầu của tổ chức.
Có cần phải họcthêm bằng cấp nào không?
◦ Không.	Cần kinh nghiệm là chính.	Một số công nghệ nên biết:	Docker,	PostgreSQL,	MongoDB,	Apache	
Spark,	Bash	shell,	AWS,	Kafka,	Jenkins,…
Học ở đâu?
◦ Đọc blog,	document	của công nghệ đang quan tâm.
◦ Học và lấy chứng chỉ tại Udacity	hoặc Amazon	certificate.
Tự nghiên cứu thì cơ hội việc làm nhưthế nào nếu không có bằng cấp Big	Data?
◦ Big	Data	không có bằng cấp.	Có thể chứng minh	năng lực thông qua	kinh nghiệm làm việc,	chứng chỉ
hoặc các tutorial	do	bạn chia	sẻ.
Nội dung
Data	qua	từng giai đoạn
Bắt đầu như thế nào?
Career	path
Cần tới đâu thì dùng tới đó.	Không nên
dùng dao chém đá đi chém chuối
Mindset	về công nghệ
Event	queuing	
system
• Amazon	
Kinesis
• Apache	Kafka
Transformation
• Spark
• Storm	
streaming
Storage
• Hadoop
• NoSQL
Quản trị
• Jenkins
• Ansible
Project	có thể start
Web	mạng xã hội nhưFacebook,	Twitter,	Zalo.
Video	nhưNetflix.
Nhạc như iTunes.
Transaction	cao nhưStock	exchange,	Bitcoint exchange.
Sử dụngmockaroo	để mô phỏngBig	Data,	thực hiện load	test	các công nghệ đang tìm hiểu.
Xin	cảm ơn
Tham khảo thêm
What	are	the	best	ways	to	start	learning	about	big	data	for	analytics	for	a	person	who	has	no	
background	on	coding/any	technical	knowledge?
How	do	you	learn	big	data?

More Related Content

What's hot

What's hot (7)

Hadoop
HadoopHadoop
Hadoop
 
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
 
Map reduce hdfs
Map reduce hdfsMap reduce hdfs
Map reduce hdfs
 
Nutch
NutchNutch
Nutch
 
Hadoop, HBase and Zookeeper at Tamtay
Hadoop, HBase and Zookeeper at TamtayHadoop, HBase and Zookeeper at Tamtay
Hadoop, HBase and Zookeeper at Tamtay
 
NoSql Database
NoSql DatabaseNoSql Database
NoSql Database
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 

Similar to Bắt đầu nghiên cứu Big Data

Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2
Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2
Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2Snoozeloop AF
 
Monitor và tối ưu sql server
Monitor và tối ưu sql serverMonitor và tối ưu sql server
Monitor và tối ưu sql serverHuân Bùi Đình
 
It monitoring with nagios lac tien man thang
It monitoring with nagios lac tien man thangIt monitoring with nagios lac tien man thang
It monitoring with nagios lac tien man thanglaonap166
 
It monitoring with nagios lac tien man thang
It monitoring with nagios lac tien man thangIt monitoring with nagios lac tien man thang
It monitoring with nagios lac tien man thanglaonap166
 
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc TuyenHDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc TuyenHuu Phan
 
Mo hinh osi-7lop-va-khuyencao-baove-dulieu
Mo hinh osi-7lop-va-khuyencao-baove-dulieuMo hinh osi-7lop-va-khuyencao-baove-dulieu
Mo hinh osi-7lop-va-khuyencao-baove-dulieunghia le trung
 
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directoryxây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directoryTran Minh Tuan
 
Hadoop trong triển khai Big Data
Hadoop trong triển khai Big DataHadoop trong triển khai Big Data
Hadoop trong triển khai Big DataNguyễn Duy Nhân
 
k07406tochucdulieuvathongtin
k07406tochucdulieuvathongtink07406tochucdulieuvathongtin
k07406tochucdulieuvathongtinVo Oanh
 
Chuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfChuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfCriz20
 
ITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigDataITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigDataIT Expert Club
 
Facebookscribe.pptx
Facebookscribe.pptxFacebookscribe.pptx
Facebookscribe.pptxdvmtxanh
 

Similar to Bắt đầu nghiên cứu Big Data (20)

Cosodulieu
CosodulieuCosodulieu
Cosodulieu
 
Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2
Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2
Gioi thieu phan mem quan ly nhan su tien luong comtek.hrm v2
 
Cosodulieu
CosodulieuCosodulieu
Cosodulieu
 
Dsd02 sta
Dsd02 staDsd02 sta
Dsd02 sta
 
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...
Nghiên Cứu Ứng Dụng Các Kỹ Thuật Của Big Data Trong Hệ Thống Phát Hiện Sao Ch...
 
Monitor và tối ưu sql server
Monitor và tối ưu sql serverMonitor và tối ưu sql server
Monitor và tối ưu sql server
 
Qt he co so du lieu
Qt he co so du lieuQt he co so du lieu
Qt he co so du lieu
 
It monitoring with nagios lac tien man thang
It monitoring with nagios lac tien man thangIt monitoring with nagios lac tien man thang
It monitoring with nagios lac tien man thang
 
It monitoring with nagios lac tien man thang
It monitoring with nagios lac tien man thangIt monitoring with nagios lac tien man thang
It monitoring with nagios lac tien man thang
 
Bai 11
Bai 11Bai 11
Bai 11
 
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc TuyenHDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
HDP - Dien Toan Dam May - Quan Ly Phong Kham Truc Tuyen
 
Mo hinh osi-7lop-va-khuyencao-baove-dulieu
Mo hinh osi-7lop-va-khuyencao-baove-dulieuMo hinh osi-7lop-va-khuyencao-baove-dulieu
Mo hinh osi-7lop-va-khuyencao-baove-dulieu
 
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directoryxây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
xây dựng và quản trị hệ thống mạng doanh nghiệp với microsoft active directory
 
Hadoop trong triển khai Big Data
Hadoop trong triển khai Big DataHadoop trong triển khai Big Data
Hadoop trong triển khai Big Data
 
k07406tochucdulieuvathongtin
k07406tochucdulieuvathongtink07406tochucdulieuvathongtin
k07406tochucdulieuvathongtin
 
Công nghệ tìm kiếm Lucene áp dụng tìm kiếm trong Văn bản, 9đ
Công nghệ tìm kiếm Lucene áp dụng tìm kiếm trong Văn bản, 9đCông nghệ tìm kiếm Lucene áp dụng tìm kiếm trong Văn bản, 9đ
Công nghệ tìm kiếm Lucene áp dụng tìm kiếm trong Văn bản, 9đ
 
Chuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdfChuong 1_Gioo thieu DB.pdf
Chuong 1_Gioo thieu DB.pdf
 
ITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigDataITEC - Qua trinh phat trien he thong BigData
ITEC - Qua trinh phat trien he thong BigData
 
Kysu tinhoccn
Kysu tinhoccnKysu tinhoccn
Kysu tinhoccn
 
Facebookscribe.pptx
Facebookscribe.pptxFacebookscribe.pptx
Facebookscribe.pptx
 

Bắt đầu nghiên cứu Big Data

  • 1. Bắt đầu nghiên cứu Big Data ÔNG XUÂN HỒNG – DATA ANALYST @ KNOREX
  • 2. Nội dung Data qua từng giai đoạn Bắt đầu như thế nào? Career path
  • 3. Data qua từng giai đoạn: Sticky notes Ưu điểm ◦ Ghi chú nhanh ◦ Tiện lợi ◦ Chỉ cần bút và giấy Khuyết điểm ◦ Dễ thất lạc ◦ Khó tìm kiếm
  • 4. Data qua từng giai đoạn: Flat files Ưu điểm ◦ Tiết kiệm chi phí lưu trữ ◦ Dễ tìm kiếm bằng cáchphân chia thư mục, đặt tên file. Khuyết điểm ◦ Ác mộng nếu quản lý không tốt. ◦ Khó tìm kiếm bên trong nội dung file. ◦ Chỉ dùng để đọc ghi dữ liệu, không phục vụ tính toán.
  • 5. Data qua từng giai đoạn: Spreadsheet Ưu điểm ◦ Có thể thực hiện tính toán. Con người không thể nào tính nhẩm hay tính tay được. ◦ Nhiều tính năng hữu ích đi kèm: biểu đồ, ghi chú, làm việc nhóm, … ◦ Dễ sử dụng và quản lý. Khuyết điểm ◦ Dữ liệu không được ràng buộc dễ bị sai sót. ◦ Thêm, xoá, sửa thông tin không nhất quán khi các file/sheet có mối liên hệ với nhau.
  • 6. Data qua từng giai đoạn: Relational DB Ưu điểm ◦ Dữ liệu được mô hình hoá thành các thực thể quan hệ. ◦ Dữ liệu được chuẩn hoá và ràng buộc nên ít bị sai sót. ◦ Dễ tìm kiếm thông tin thông qua ngôn ngữ SQL. ◦ Thêm, xoá, sửa thông tin được nhất quán khi có thay đổi. Khuyết điểm ◦ Tổng hợp dữ liệu chậm khikết bảng quan hệ. ◦ Lưu dữ liệu transaction tỉ lệ lỗi cao hoặc bị mất mát thông tin khi hệ thống bị quá tải.
  • 7. Data qua từng giai đoạn: OLAP Ưu điểm ◦ Xem nhanh dữ liệu đã tổng hợp theo nhiều chiều cùng lúc. ◦ Hỗ trợ giám sát và ra quyết định. Khuyết điểm ◦ Không real-time. ◦ Cần lên lịch cập nhật và lưu trữ thành Data warehouse.
  • 8. Data qua từng giai đoạn: NoSQL Ưu điểm ◦ Giải quyết đọc ghi dữ liệu real-time. ◦ Biểu diễn dữ liệu đa dạng hơn. ◦ Dễ dàng phân tán/replicate dữ liệu trên nhiều server. Khuyết điểm ◦ Không đảm bảo toàn vẹn dữ liệu. ◦ Dữ liệu không phản ánh được mối quan hệ. ◦ Bảo mật không cao. ◦ Hệ thống dễ bị lỗi và cần nhiều thiết lập để tối ưu.
  • 9. Data qua từng giai đoạn: Distributed file storage Ưu điểm ◦ Lưu trữ dữ liệu phân tán. ◦ Thích hợp lưu trữ các tập tin dung lượng cao như video, âm thanh, hình ảnh, … ◦ MapReduce giải quyết vấn đề tổng hợp dữ liệu trên nhiều server. Khuyết điểm ◦ Cơ chế MapReduce chậm, không đáp ứng được tổng hợp dữ liệu real-time. ◦ Sử dụng nhiều third-party đi kèm để khắc phục khuyết điểm.
  • 10. Nguyên lý chung Chia để trị bằng cách phân tán nguồn lực và tài nguyên ra nhiều server. Loại bỏ các điều kiện ràng buộc về dữ liệu, kiểm tra bảo mật để tăng tốc đọc ghi dữ liệu. Mini-batch thành các mẫu dữ liệu nhỏ hơn để tính toán nhanh hơn. Sử dụngcấu trúc Hash để indexing phục vụ tác vụ tìm kiếm nhanh.
  • 11. Nội dung Data qua từng giai đoạn Bắt đầu như thế nào? Career path
  • 12. Bắt đầu như thế nào? Xác định vấn đề gặp phải Tìm kiếm công cụ tương ứng Test thử một thời gian Ứng dụng vào hệ thống Ghi nhận và tinh chỉnh
  • 13. 01 - Vấn đề lưu trữ Dữ liệu sinh ra nhiều trongtừng giây. Ví dụ: emails, Facebook messages, photos, video clips, sensor data. Message queue: Kafka, Kinesis, SQS, RabbitMQ. Distributed file storage: Hadoop, Amazon S3, Google cloud storage. NoSQL: MongoDB, Cassandra, Redis. SQL: PostgreSQL.
  • 15. Thách thức Lưu trữ toàn bộ dữ liệu, hạn chế mất mát thôngtin. Lựa chọn định dạng dữ liệu phục vụ cho xửlý sau này.
  • 16. Lựa chọn lưu trữ AWS Kinesis AWS S3 ARENA Media broker
  • 17. 02 - Vấn đề tính toán Tốc độ tổng hợp dữ liệu đòi hỏi cao. Real-time ở một số trường hợp. Ví dụ: tracking quảngcáo, report doanh thu theo giờ, phút, giây, mạng xã hội. Streaming: Apache Storm, Spark Streaming, Trident, Samza. Computing: Apache Spark, Flink.
  • 18. Case study: tổng hợp dữ liệu Report từ các hãng thứ ba
  • 19. Tổng hợp dữ liệu MB Analytics Backend/UI Độ trễ tối đa: 2 giờ. Nghĩa là, vào lúc 11:00 AM, người dùng phải xem được report của 9:00 AM Tổng hợp report Tích hợp dữ liệu nguồn khác 10:00 10:05 10:15 Tiền xử lý 10:40 Thời gian còn lại… Tổng hợp dữ liệu của 9:00 AM
  • 20. Thách thức Nhiều tác vụ cần thực hiện trong vòng 1 giờ, không còn thời gian cho các tác vụ tương lai ◦ Tiền xử lý dữ liệu. ◦ Tổng hợp dữ liệu. ◦ Bộ lọc Spiders và bots. ◦ Tích hợp dữ liệu từ nguồn khác: Facebook, ARENA, Google Analytics.
  • 21. Lựa chọn tính toán 40 20 10 0 5 10 15 20 25 30 35 40 45 Python Spark 1.6 Spark 2.0 Performance Minutes
  • 22. Spark 2.0 primitive Spark 1.6 Spark 2.0 filter 15ns 1.1ns sum w/o group 14ns 0.9ns sum w/ group 79ns 10.7ns hash join 115ns 4.0ns sort (8-bit entropy) 620ns 5.3ns sort (64-bit entropy) 620ns 40ns sort-merge join 750ns 700ns
  • 24. 03 - Vấn đề quản trị Continuous Integration/Continuous Development(CI/CD): tự động hoá tiến trình building, testing, và deploying trơn tru ở nhiều môi trườngkhác nhau (local, staging, production). Version control: Git, Docker Task management: Jenkins, Mesos, Chronos, Marathon. Automation: Chef, Puppet, Ansible, Capistrano, SaltStack. Log management: Logstash, ElasticSearch, Kibana.
  • 25. Mindset về công nghệ Event queuing system • Amazon Kinesis • Apache Kafka Transformation • Spark • Storm streaming Storage • Hadoop • NoSQL Quản trị • Jenkins • Ansible
  • 26. Nội dung Data qua từng giai đoạn Bắt đầu như thế nào? Career path
  • 27. Kỹ năng cần có 0 20 40 60 80 100 Coding (Python, Scala, Java, Shell, NodeJS) Database configurations SQL optimizationServer management Networking Data engineer Data analyst Data scientist Xây dựng hệ thống. Monitor hệ thống. Backup hệ thống. Scaling hợp lý với kinh phí.
  • 28. Kinh nghiệm bản thân Cần môi trường cho mình cơ hội làm việc với các công nghệ Big Data. Học thật kĩ kiến thức quản trị mạng và cơ sở dữ liệu để bắt kịp xu hướngdễ dàng hơn. Viết document cho nhữngkiến trúc mình xâydựng(tại sao lựa chọn, mục đích hệ thống, performance test, các điểm cần khắc phục). Nên nghiên cứu thêm về độ phức tạp thuật toán để ứng dụngcho tính toán tối ưu (search, sort, aggregation, streaming, organize database). Nâng cao kĩ năng làm việc nhóm và cập nhật kiến thức công nghệ nhưGit, Dockerize, CI/CD, Test Driven Development, Automation khi có thể. Nên dành khoản tiền đầu tư cho các khoá học online chất lượng, đừng tiếc tiền cho việc học. Nếu là Data Engineer/System admin thì nên đầu tư lấy chứng chỉ MCSA, CCNA, AWS.
  • 29. Câu hỏi thường gặp Bắt đầu học Big Data từ con số không nhưthế nào? ◦ Chọn một hệ quản trị cơ sở dữ liệu (MySQL, PostgreSQL, MongoDB). ◦ Thao tác với ngôn ngữ truy vấn SQL. ◦ Thiết kế cơ sở dữ liệu (ràng buộc toàn vẹn, đại số quan hệ, các dạng chuẩn dữ liệu). ◦ Mạng máy tính cơ bản (phân quyền, chia thư mục, SSH, address forwarding, tail –f, vim, nano). ◦ Tìm hiểu về Business Intelligent (OLAP, OLTP, Star/Snowflake schema). ◦ Tìm hiểu về Hadoop, MapReduce, Apache Spark. Nên tự build hay sử dụng cloud service ◦ Tự build: ưu điểm bảo mật dữ liệu theo ý mình, khuyết điểm tốn kém về thời gian chi phí, hệ thống lỗi thời nhanh. ◦ Cloud service: ưu điểm nhanh chóng tích hợp hệ thống, khuyết điểm phụ thuộc hãng cung cấp, chi phí tăng caonếu không biết kiểm soát. (Amazon, Google, Microsoft)
  • 30. Câu hỏi thường gặp Thế nào thì được gọi là Big Data? ◦ Khi khả năng lưu trữ và tính toán không đáp ứng được nhu cầu của tổ chức. Có cần phải họcthêm bằng cấp nào không? ◦ Không. Cần kinh nghiệm là chính. Một số công nghệ nên biết: Docker, PostgreSQL, MongoDB, Apache Spark, Bash shell, AWS, Kafka, Jenkins,… Học ở đâu? ◦ Đọc blog, document của công nghệ đang quan tâm. ◦ Học và lấy chứng chỉ tại Udacity hoặc Amazon certificate. Tự nghiên cứu thì cơ hội việc làm nhưthế nào nếu không có bằng cấp Big Data? ◦ Big Data không có bằng cấp. Có thể chứng minh năng lực thông qua kinh nghiệm làm việc, chứng chỉ hoặc các tutorial do bạn chia sẻ.
  • 31. Nội dung Data qua từng giai đoạn Bắt đầu như thế nào? Career path
  • 32. Cần tới đâu thì dùng tới đó. Không nên dùng dao chém đá đi chém chuối
  • 33. Mindset về công nghệ Event queuing system • Amazon Kinesis • Apache Kafka Transformation • Spark • Storm streaming Storage • Hadoop • NoSQL Quản trị • Jenkins • Ansible
  • 34. Project có thể start Web mạng xã hội nhưFacebook, Twitter, Zalo. Video nhưNetflix. Nhạc như iTunes. Transaction cao nhưStock exchange, Bitcoint exchange. Sử dụngmockaroo để mô phỏngBig Data, thực hiện load test các công nghệ đang tìm hiểu.