728x90
Trino
Trino의 공식 문서에서 가져온 설녕으로는 하나 이상 종류의 데이터 소스에 분산된 대규모 데이터 세트를 쿼리 하도록 설계된 분산 SQL 쿼리 엔진이다.
쉽게 말해 분산(병렬) 쿼리를 사용해 방대한 데이터를 효율적으로 쿼리하도록 설계된 도구이다.
표준 데이터베이스 기능을 제공하고 SQL을 다루지만 데이터베이스라고는 할 순 없다.
즉, MySQL, PostgreSQL, Oracle을 대체하지 않는다.
Trino는 Hive와 Pig처럼 MapReduce 작업의 파이프라인을 사용해 HDFS를 쿼리하는 도구의 대안으로 설계 되었다.
관계형 데이터베이스(RDBM)나 Cassandra 같은 여러 데이터 소스를 다룰 수 있다.
- 공식 사이트
https://trino.io/docs/current/overview/concepts.html
Trino 배경
presto는 페이스북이 최초 개발하여 오픈 소스로 공개한 대화식 데이터 쿼리 서비스. 이를 이용해 다양한 데이터베이스에 대한 일관된 ANSI SQL 질의가 가능하다.
- 페이스북 내부 직원 약 1,000명은 Presto를 매일 페타바이트가 넘는 데이터를 스캔하는 30,000건이 넘는 쿼리를 페이스북 데이터를 조회하는데 사용하고 있다.
- 빠른 속도를 보장하기 위해 엔진 레벨에서 분산 컴퓨팅 기법이 사용된다.
- 2020년 12월 27일 Presto 초기 멤버들이 페이스북을 나와 만든 PrestoSQL 프로젝트가 Trino로 리브랜딩 됨
- 350버전 이후로 prestoSQL에서 Trino로 완전히 이름이 바뀜
- Amazon은 presto 0.172 기반으로 시작해 자체 개발한 Amazon Athena 서버리스 상품을 제공하고 있다. 기능적인 건 presto나 trino에 비해 부족하지만 인프라 구성에 신경쓰지 않고 매니지드하게 다룰 수 있는 장점이 있음
Trino는 확장성과 유연성이 뛰어나 빅데이터에 의존하는 산업에 적합하기 때문에 대기업에서 많이 사용한다.
특히 컴퓨팅과 스토리지가 분리되어 있기 때문에 커넥터라는 별도의 요소를 사용해 데이터 소스에서 데이터를 검색한다. 기존 데이터베이스, 비관계형 데이터베이스 등의 데이터 소스를 쿼리할 때 높은 수준의 다기능성을 제공한다.
Reference
728x90
'DB(DataBase) > DataEngineer' 카테고리의 다른 글
[Airflow] Apache Airflow(에어플로우) 알아보기 (0) | 2024.01.02 |
---|---|
[DataEngineer] 데이터 엔지니어 총 정리 (2) | 2023.12.27 |