DB(DataBase)

    [Trino]Trino란 무엇일까?

    Trino Trino의 공식 문서에서 가져온 설녕으로는 하나 이상 종류의 데이터 소스에 분산된 대규모 데이터 세트를 쿼리 하도록 설계된 분산 SQL 쿼리 엔진이다. 쉽게 말해 분산(병렬) 쿼리를 사용해 방대한 데이터를 효율적으로 쿼리하도록 설계된 도구이다. 표준 데이터베이스 기능을 제공하고 SQL을 다루지만 데이터베이스라고는 할 순 없다. 즉, MySQL, PostgreSQL, Oracle을 대체하지 않는다. Trino는 Hive와 Pig처럼 MapReduce 작업의 파이프라인을 사용해 HDFS를 쿼리하는 도구의 대안으로 설계 되었다. 관계형 데이터베이스(RDBM)나 Cassandra 같은 여러 데이터 소스를 다룰 수 있다. 공식 사이트 https://trino.io/docs/current/overvie..

    [Airflow] Apache Airflow(에어플로우) 알아보기

    오늘은 Airflow가 어떤건지에 대해서 알아보고자 한다. 본 포스팅을 통해 Airflow의 기본이 되는 개념을 정리한다. Apache Airflow 란? - Airflow 공식 홈페이지 https://airflow.apache.org/docs/apache-airflow/stable/index.html What is Airflow™? — Airflow Documentation airflow.apache.org 공식 홈페이지에 나와있는 Apache Airflow의 정의는 "프로그래밍 방식으로 워크플로우를 작성, 예약 및 모니터링"하는 오픈소스 플랫폼이다. Python 코드로 워크플로우(workflow)를 작성하고 스케줄링, 모니터링 하는 플랫폼이다. Airflow를 통해서 데이터엔지니어링 ETL 작업을 자..

    [DataEngineer] 데이터 엔지니어 총 정리

    그럼 먼저 데이터 엔지니어란 무엇이고 조직에서 어떤역할을 하는지에 대해 알아보자. 데이터 엔지니어(Data Engineer, DE) 데이터 엔지니어는 "데이터 영역을 전문으로 담당하는 엔지니어" 라고 정의 할 수 있다. 구체적인 역할은 산업별, 회사별로 데이터 엔지니어가 하는 업무과 기술이 다르지만, 공통적으로는 "내-외부 원천 데이터를 수집, 가공, 적재하여 데이터가 흐르는 파이프라인을 설계 및 구축하는 역할" 이라고 생각할 수 있다. 조금 더 쉽게 설명하면 "데이터를 활용하기 쉽게 환경을 만들어주는 역할" 이라고 생각하면 된다. DataEngineer Roadmap - 2022 아래는 데이터 엔지니어 관련 로드맵 이미지이다. 데이터 엔지니어의 역할 데이터 엔지니어가 하는 업무중 가장 핵심은 데이터의 ..

    [Hadoop] HDFS 기본 특징와 노드 종류

    하둡 HDHS HDFS는 Hadoop Distributed File Syste으로, 대용량 데이터를 분산된 서버에 저장하고, 데이터를 빠르게 처리할 수 있게 하는 파일시스템이다. HDFS는 구글 파일 시스템을 본떠 만든 오픈소스로, 다음과 같은 특징을 갖고 있다 큰 용량의 데이터 저장 가능 데이터 저장 시 블록 단위로 쪼개어 저장을 진행해 여러 장비에 걸쳐 데이터를 저장할 수 있다. 스트리밍 방식의 데이터 사용 HDFS로 저장된 데이터는 수정이 불가능 합니다.(단, 마지막 데이터에 추가로 데이터를 이어 붙이는 것은 가능함(append)) 일반적 하드웨어 사용 가능 파일 블록 형태의 저장 기본적인 블록의 크기는 128MB이며, 데이터 크기가 큰 경우 많은 블록을 띄우는 것을 방지하기 위해 크기를 키우기도 ..

    [Hadoop] 하둡 특징 및 기본설명

    이번 포스팅에서는 하둡 분산처리 시스템에 대해서 알아본다. Hadoop 오늘날 빅데이터분석을 적은 비용으로 더 빠르게 분석할 수 있게 해준 장본인이 하둡이라고 해도 과언이 아니다. 원래는 한 대의 고성능 컴퓨터로 작업하던 방식에서 하둡을 이용해서 여러 대의 컴퓨터로 데이터를 분석하고 저장하는 방식으로 바뀌면서 분석에 필요했던 많은 비용과 시간을 단축시킬 수 있게 되었다. 빅데이터 솔루션 하둡 시장이 2016년부터 76억 달러였던 규모에서 연평균 50%씩 성장을 통해 2022년 100조원 규모로 커질 것이란 전망이 나왔다. 하둡시장이 이렇게 확장할 수 있던 요인은 아마존, 마이크로소프트, IBM, 오라클 VM웨어 등의 대규모 업체들이 하둡을 적극 활용한 이유때문이다. 대기업이 이용하는데는 솔루션의 성능이 ..

    DataBase 문법 총정리 _ 데이터 스키마, SQL 문법

    데이터베이스 스키마 컴퓨터 과학에서 데이터베이스 스키마(database schema)는 데이터베이스에서 자료의 구조, 자료의 표현 방법, 자료 간의 관계를 형식 언어로 정의한 구조이다. 상세하게 말하면, 개체의 특성을 나타내는 속성(Attribute)과 속성들의 집합으로 이루어진 개체(Entity), 개체 사이에 존재하는 관계(Relation)에 대한 정의와 이들이 유지해야 할 제약조건들 을 기술한 것 쉽게 정리하여, DB내에 어떤 구조로 데이터가 저장되는가를 나타내는 데이터베이스 구조를 스키마라고 한다. SQL 문법의 흐름 FROM WHERE GROUP BY HAVING SELECT ORDER BY LIMIT 문법의 해석 FROM : 어느 테이블을 대상으로 할 것인지를 먼저 결정 WHERE : 해당 테..