데이터 엔지니어링은 무엇인가
1. 데이터 웨어하우스 관리
2. 데이터 파이프라인(ETL=dag=data job) 관리
데이터 파이프라인 형식: batch vs realtime()
※ ETL(extract, transform, load)은 데이터웨어하우스 밖에 있는 데이터를 안으로 가져오는거
※ ELT: 안에 있는걸 조합해서 새로운 데이터 만드는 것
데이터 엔지니어가 알아야 하는 기술
SQL: Hive, SQL, ...
Programming Lanuage: Python, Scala, Java
ETL/ELT Scheduler: Airflow, ...
Cloud Computing: AWS
Container Technology: K8S, Docker
데이터 웨어하우스란 무엇인가? 데이터 분석용 전용 데이터베이스(분리됨)
데이터웨어하우스는 PRODUCTION DATABASE로부터 분리되어야하고 분석가들의 쿼리가 실제 PRODUCTION DB에 전송되면 문제가 발생할 수 있다. 데이터 웨어하우스에는 두가지 옵션이 있다.
Fixed Cost option vs Variable Cost Option
고정 비용 : Redshift, 고정 비용으로 안정적인 비용 예측, 데이터가 큰 곳이 아니라면 좋은 옵션
가변 비용 : BigQuery and Snowflake, 스토리지 및 컴퓨팅의 분리된 용량 증가 제공
반응형
'데이터 엔지니어링 > 실리콘밸리에서 날아온 데이터 엔지니어링 스타터 키트 with Python' 카테고리의 다른 글
[2주차] SQL JOIN & 고급문법 (0) | 2023.06.12 |
---|---|
[2주차] SQL 장단점 & 기본 문법 (0) | 2023.06.12 |
[1주차]AWS가 제공하는 데이터 웨어하우스 Redshift에 대해 알아보자 (0) | 2023.06.07 |
[1주차] 데이터 팀의 비전과 가치를 만들어내는 방법 (0) | 2023.06.06 |
[1주차] 교육 커리큘럼과 요즘 커리어에 대해서 (2) | 2023.06.06 |
댓글