hadoop

    [Docker] docker-hadoop 컨테이너 설명

    이번 포스팅에서는 Hadoop 클러스터의 컨테이너에 대해서 알아보자. 만약 docker로 Hadoop 클러스터를 구성하는 방법이 궁금하면 아래 포스팅을 참고하자 https://zeuskwon-ds.tistory.com/68?category=1023021 [Docker] 리눅스 Hadoop 클러스터 구성하기 이번 포스팅에서는 Docker로 Hadoop 클러스터를 구성해보겠다. 도커로 하둡클러스터 구성한 환경은 리눅스(CentOS)에서 진행했다. 1. Docker-Hadoop repository 구성 하둡 클러스터로는 big-data-europe에서 만든. zeuskwon-ds.tistory.com 하둡 공식 Documentation https://hadoop.apache.org/docs/current/

    [Hadoop] HDFS 기본 특징와 노드 종류

    하둡 HDHS HDFS는 Hadoop Distributed File Syste으로, 대용량 데이터를 분산된 서버에 저장하고, 데이터를 빠르게 처리할 수 있게 하는 파일시스템이다. HDFS는 구글 파일 시스템을 본떠 만든 오픈소스로, 다음과 같은 특징을 갖고 있다 큰 용량의 데이터 저장 가능 데이터 저장 시 블록 단위로 쪼개어 저장을 진행해 여러 장비에 걸쳐 데이터를 저장할 수 있다. 스트리밍 방식의 데이터 사용 HDFS로 저장된 데이터는 수정이 불가능 합니다.(단, 마지막 데이터에 추가로 데이터를 이어 붙이는 것은 가능함(append)) 일반적 하드웨어 사용 가능 파일 블록 형태의 저장 기본적인 블록의 크기는 128MB이며, 데이터 크기가 큰 경우 많은 블록을 띄우는 것을 방지하기 위해 크기를 키우기도 ..

    [Hadoop] 하둡 특징 및 기본설명

    이번 포스팅에서는 하둡 분산처리 시스템에 대해서 알아본다. Hadoop 오늘날 빅데이터분석을 적은 비용으로 더 빠르게 분석할 수 있게 해준 장본인이 하둡이라고 해도 과언이 아니다. 원래는 한 대의 고성능 컴퓨터로 작업하던 방식에서 하둡을 이용해서 여러 대의 컴퓨터로 데이터를 분석하고 저장하는 방식으로 바뀌면서 분석에 필요했던 많은 비용과 시간을 단축시킬 수 있게 되었다. 빅데이터 솔루션 하둡 시장이 2016년부터 76억 달러였던 규모에서 연평균 50%씩 성장을 통해 2022년 100조원 규모로 커질 것이란 전망이 나왔다. 하둡시장이 이렇게 확장할 수 있던 요인은 아마존, 마이크로소프트, IBM, 오라클 VM웨어 등의 대규모 업체들이 하둡을 적극 활용한 이유때문이다. 대기업이 이용하는데는 솔루션의 성능이 ..

    [Docker] Linux(CentOS) Hadoop 클러스터 구성하기

    이번 포스팅에서는 Docker로 Hadoop 클러스터를 구성해보겠다. 도커로 하둡클러스터 구성한 환경은 리눅스(CentOS)에서 진행했다. 1. Docker-Hadoop repository 구성 하둡 클러스터로는 big-data-europe에서 만든 하둡이미지를 사용한다. (아래 링크 참조) https://github.com/big-data-europe/docker-hadoop.git GitHub - big-data-europe/docker-hadoop: Apache Hadoop docker image Apache Hadoop docker image. Contribute to big-data-europe/docker-hadoop development by creating an account on GitH..