이번 포스팅에서는 하둡 분산처리 시스템에 대해서 알아본다.
Hadoop
오늘날 빅데이터분석을 적은 비용으로 더 빠르게 분석할 수 있게 해준 장본인이 하둡이라고 해도 과언이 아니다.
원래는 한 대의 고성능 컴퓨터로 작업하던 방식에서 하둡을 이용해서 여러 대의 컴퓨터로 데이터를 분석하고 저장하는 방식으로 바뀌면서 분석에 필요했던 많은 비용과 시간을 단축시킬 수 있게 되었다.
빅데이터 솔루션 하둡 시장이 2016년부터 76억 달러였던 규모에서 연평균 50%씩 성장을 통해 2022년 100조원 규모로 커질 것이란 전망이 나왔다.
하둡시장이 이렇게 확장할 수 있던 요인은 아마존, 마이크로소프트, IBM, 오라클 VM웨어 등의 대규모 업체들이 하둡을 적극 활용한 이유때문이다.
대기업이 이용하는데는 솔루션의 성능이 좋기 때문이 아닐까?
하둡 관련 오픈소스 솔루션들이 연동되어 하둡 생태계를 구성한 것을 오늘날에는 "하둡 에코시스템"으로 불린다.
Hadoop 이란?
하둡 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 사용하여 여러 대의 컴퓨터 클러스터에서 대규모 데이터 세트를 분산처리할 수 있게 해주는 프레임워크이다.
하둡은 여러개의 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 기술로, 수천 대dml 분산된 x86장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템(HDFS)과, 저장된 분산 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 빠르게 분석하는 맵리듀스 플랫폼(MapReduce)으로 구성되어 있다.
일반적으로 하둡 분산처리시스템(HDFS)과 맵리듀스(MapReduce) 프레임 워크로 시작되었으나, 여러 데이터저장, 실행 엔진, 프로그래밍 밒 데이터 처리 같은 하둡 생테계 전반을 포함하는 의미로 확장, 발전했다.
하둡 구성 요소
하둡은 4개의 주요 모듈로 구성된다.
- Common
- 하둡의 다른 모듈을 지원하기 위한 공통 컴포넌트 모듈
- HDFS
- 분산저장을 처리하기 위한 모듈
- 여러개의 서버를 하나의 서버처럼 묶어서 데이터를 저장
- YARN
- 병렬처리를 위한 클러스터 자원관리 및 스케줄링 담당
- Mapreduce
- 분산되어 저장된 데이터를 병렬 처리할 수 있게 해주는 분산 처리 모듈
- Ozeone
- 하둡을 위한 오브젝트 저장소
하둡의 장단점
- 장점
- 오픈소스로 라이선스에 대한 비용 부담이 적음
- 시스템을 중단하지 않고, 장비의 추가가 용이(Scale Out)
- 일부 장비에 장애가 발생하더라도 전체 시스템 사용성에 영향이 적음(Fault tolerance)
- 저렴한 구축 비용과 비용대비 빠른 데이터 처리
- 오프라인 배치 프로세싱에 최적화
- 단점
- HDFS에 저장된 데이터를 변경 불가
- 실시간 데이터 분석 같이 신속하게 처리해야 하는 작업에는 부적합
- 너무 많은 버전과 부실한 서포트
- 설정의 어려움
Reference
'DB(DataBase)' 카테고리의 다른 글
[Hadoop] HDFS 기본 특징와 노드 종류 (0) | 2022.05.17 |
---|---|
DataBase 문법 총정리 _ 데이터 스키마, SQL 문법 (0) | 2021.07.23 |
DataBase 기초 _ 관계형 데이터베이스 (0) | 2021.07.23 |
DataBase 기초 _ SQL이란? (0) | 2021.07.23 |