본문 바로가기

IT/Bigdata

01. 하둡 살펴보기

01. 하둡 살펴보기

1.1 빅데이터의 시대

1.1.1 빅데이터의 개념

-빅데이터의 3대 요소 (3V) : 
크기(Volume), 속도(Velocity), 다양성(Variety)

1.1.2 빅데이터의 출현 배경


1.2 하둡이란?

-대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크
-하둡의 탄생 : 
GFS(Google File System) + Mapreduce (더그커팅)
-HDFS : 하둡 분산 파일 시스템
-Mapreduce : 분산 처리 시스템으로 데이터 처리

1.2.1 왜 하둡인가?

1. 웹 로그 같은 비정형 데이터를 저장하기 위함.
2. 오슨소스 프로젝트로 라이선스 부담이 없음
3. 데이터 복제본을 저장하여 제이터 유실이나 장애에 복구 가능
4. 여러 대의 서버에 데이터를 저장하고, 데이터가 저장된 각 서버에서 동시에 데이터를 처리하여 속도가 빠름
 

1.3 하둡 에코시스템

-다양한 서브 프로젝트 (하둡 생태계)
-코어 프로젝트 :
HDFS (분산데이터 저장)
Mapreduce (분산 데이터 배치 처리)
-서브 프로젝트

코디네이터

Zookeeper
-분산 환경에서 버거 산의 상호 조정이 필요한 다양한 서비스를 제공하는 시스템
1. 서비스를 분산해 동시에 처리하게 해줌
2. 하나의 서버에서 처리한 결과를 다른 서버에 동기화해서 데이터의 안정성을 보장
3. 운영(active) 서버에 문제 발생시 대기중인 서버로 운영서버를 바꿔서 서비스를 중지 없이 제공
4. 서버의 환경을 통합적으로 관리

리소스관리

YARN
-데이터 처리 작업을 실행하기 위한 클러스터 자원과 스케줄링을 위한 프레임워크.
-기존 맵리듀스의 단점을 극복

MESOS

데이터 저장

HBase
-HDFS 기반의 컬럼 기반 데이터베이스

Kudu

데이터 수집

Flume
-분산 환경에서 생성되는 데이터를 HDFS에 안정적으로 저장하는 플랫폼
-분산 서버에 에이전트가 설치되고 에이전트로부터 데이터를 전달받는 콜랙터로 구성

Kafka
-분산 메시징 시스템

Sqoop, Chukwa, Sctibe, Hiho

데이터 처리

Impala
-하둡 기반의 분산 쿼리 엔진
-데이터 조회를 위한 인터페이스
-HiveQL 사용
Hive
-하둡 기반의 데이터 웨어 하우징용 솔루션
-HiveQL 사용
Spark
-인메모리 기반의 범용 데이터 처리 플랫폼
Pig, Mahout, Presto, Tajo

워크플로우 관리

Oozie
-하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
-자바 웹 애플리케이션 서버
-맵리듀스 작업이나 피그 작업 같은 특화된 액션으로 구성된 워크플로우를 제어

Nifi, Airflow, Azkaban

데이터 시각화

Zeppelin

데이터 직렬화

Avro, Thrift





















'IT > Bigdata' 카테고리의 다른 글

02. 하둡 개발 준비  (0) 2017.11.28