728x90
반응형
하둡이란?
하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 분산처리를 위한 오픈소스 프레임워크라고한다.
구성요소
- Hadoop Common : 하둡의 다른 모듈을 지원하기 위한 공통 컴포넌트 모듈
- Hadoop HDFS : 분산저장을 처리하기 위한 모듈. 여러개의 서버를 하나의 서버처럼 묶어서 데이터를 저장
- Hadoop YARN : 병렬처리를 위한 클러스터 자원관리 및 스케줄링 담당
- Hadoop Mapreduce : 분산되어 저장된 데이터를 병렬 처리할 수 있게 해주는 분산 처리 모듈
- Hadoop Ozone : 하둡을 위한 오브젝트 저장소
장점
- 오픈소스로 라이선스에 대한 비용 부담이 적음
- 시스템을 중단하지 않고, 장비의 추가가 용이(Scale Out)
- 일부 장비에 장애가 발생하더라도 전체 시스템 사용성에 영향이 적음(Fault tolerance)
- 저렴한 구축 비용과 비용대비 빠른 데이터 처리
- 오프라인 배치 프로세싱에 최적화
단점
- HDFS에 저장된 데이터를 변경 불가
- 실시간 데이터 분석 같이 신속하게 처리해야 하는 작업에는 부적합
- 너무 많은 버전과 부실한 서포트
- 설정의 어려움
728x90
반응형
'DevOps > Hadoop' 카테고리의 다른 글
Hadoop - Hive (하이브) 설치 (0) | 2021.12.24 |
---|---|
Hadoop 클러스터 설치 (고가용성) - 2 (0) | 2021.12.20 |
Hadoop 클러스터 설치 (고가용성) - 1 (0) | 2021.12.20 |
Hadoop 클러스터 설치 (기본) (0) | 2021.12.17 |