DB(DataBase)/DataEngineer

    [Trino]Trino란 무엇일까?

    Trino Trino의 공식 문서에서 가져온 설녕으로는 하나 이상 종류의 데이터 소스에 분산된 대규모 데이터 세트를 쿼리 하도록 설계된 분산 SQL 쿼리 엔진이다. 쉽게 말해 분산(병렬) 쿼리를 사용해 방대한 데이터를 효율적으로 쿼리하도록 설계된 도구이다. 표준 데이터베이스 기능을 제공하고 SQL을 다루지만 데이터베이스라고는 할 순 없다. 즉, MySQL, PostgreSQL, Oracle을 대체하지 않는다. Trino는 Hive와 Pig처럼 MapReduce 작업의 파이프라인을 사용해 HDFS를 쿼리하는 도구의 대안으로 설계 되었다. 관계형 데이터베이스(RDBM)나 Cassandra 같은 여러 데이터 소스를 다룰 수 있다. 공식 사이트 https://trino.io/docs/current/overvie..

    [Airflow] Apache Airflow(에어플로우) 알아보기

    오늘은 Airflow가 어떤건지에 대해서 알아보고자 한다. 본 포스팅을 통해 Airflow의 기본이 되는 개념을 정리한다. Apache Airflow 란? - Airflow 공식 홈페이지 https://airflow.apache.org/docs/apache-airflow/stable/index.html What is Airflow™? — Airflow Documentation airflow.apache.org 공식 홈페이지에 나와있는 Apache Airflow의 정의는 "프로그래밍 방식으로 워크플로우를 작성, 예약 및 모니터링"하는 오픈소스 플랫폼이다. Python 코드로 워크플로우(workflow)를 작성하고 스케줄링, 모니터링 하는 플랫폼이다. Airflow를 통해서 데이터엔지니어링 ETL 작업을 자..

    [DataEngineer] 데이터 엔지니어 총 정리

    그럼 먼저 데이터 엔지니어란 무엇이고 조직에서 어떤역할을 하는지에 대해 알아보자. 데이터 엔지니어(Data Engineer, DE) 데이터 엔지니어는 "데이터 영역을 전문으로 담당하는 엔지니어" 라고 정의 할 수 있다. 구체적인 역할은 산업별, 회사별로 데이터 엔지니어가 하는 업무과 기술이 다르지만, 공통적으로는 "내-외부 원천 데이터를 수집, 가공, 적재하여 데이터가 흐르는 파이프라인을 설계 및 구축하는 역할" 이라고 생각할 수 있다. 조금 더 쉽게 설명하면 "데이터를 활용하기 쉽게 환경을 만들어주는 역할" 이라고 생각하면 된다. DataEngineer Roadmap - 2022 아래는 데이터 엔지니어 관련 로드맵 이미지이다. 데이터 엔지니어의 역할 데이터 엔지니어가 하는 업무중 가장 핵심은 데이터의 ..