본문 바로가기
데이터 엔지니어링/실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python

[1주차] 데이터 엔지니어링, 데이터 웨어하우스란?

by whdgus928 2023. 6. 7.

데이터 엔지니어링은 무엇인가

1. 데이터 웨어하우스 관리

2. 데이터 파이프라인(ETL=dag=data job) 관리

데이터 파이프라인 형식: batch vs realtime()

 

※ ETL(extract, transform, load)은 데이터웨어하우스 밖에 있는 데이터를 안으로 가져오는거

※ ELT: 안에 있는걸 조합해서 새로운 데이터 만드는 것 

 

데이터 엔지니어가 알아야 하는 기술

SQL: Hive, SQL, ...

Programming Lanuage: Python, Scala, Java

ETL/ELT Scheduler: Airflow, ...

Cloud Computing: AWS

Container Technology: K8S, Docker

 

데이터 웨어하우스란 무엇인가? 데이터 분석용 전용 데이터베이스(분리됨)

데이터웨어하우스는 PRODUCTION DATABASE로부터 분리되어야하고 분석가들의 쿼리가 실제 PRODUCTION DB에 전송되면 문제가 발생할 수 있다. 데이터 웨어하우스에는 두가지 옵션이 있다.

Fixed Cost option vs Variable Cost Option

고정 비용 : Redshift, 고정 비용으로 안정적인 비용 예측, 데이터가 큰 곳이 아니라면 좋은 옵션

가변 비용 : BigQuery and Snowflake, 스토리지 및 컴퓨팅의 분리된 용량 증가 제공

반응형

댓글