반응형 데이터 엔지니어링7 [3주차] Airflow 소개 Airflow는 파이썬으로 작성된 데이터 파이프라인 (ETL) 프레임워크 - Airbnb에서 시작한 아파치 오픈소스 프로젝트 - 가장 많이 사용되는 데이터 파이프라인 관리/작성 프레임웍 - 데이터 파이프라인 스케줄링 지원 - 정해진 시간에 ETL 실행 혹은 한 ETL의 실행이 끝나면 다음 ETL 실행 - 웹 UI를 제공하기도 함 - 데이터 파이프라인(ETL)을 쉽게 만들 수 있도록 해줌 - 다양한 데이터 소스와 데이터 웨어하우스를 쉽게 통합해주는 모듈 제공 https://airflow.apache.org/docs/ - 데이터 파이프라인 관리 관련 다양한 기능을 제공해줌: 특히 Backfill - Airflow에서는 데이터 파이프라인을 DAG(Directed Acyclic Graph)라고 부름 - 하나의 .. 2023. 6. 18. [2주차] SQL JOIN & 고급문법 JOIN 기본 문법 SELECT A.*, B.* FROM raw_data.table1 A ____ JOIN raw_data.table2 B --(INNER, FULL, LEFT, RIGHT, CROSS) ON A.key1 = B.key1 and A.key2 = B.key2 default: inner join INNER JOIN - 양쪽 테이블에서 매치가 되는 레코드들만 리턴함 - 양쪽 테이블의 필드가 모두 채워진 상태로 리턴됨 FULL JOIN - 왼쪽 테이블과 오른쪽 테이블의 모든 레코드들을 리턴함 - 매칭되는 경우에만 양쪽 테이블들의 모든 필드들이 채워진 상태로 리턴됨 LEFT JOIN - 왼쪽 테이블(Base)의 모든 레코드들을 리턴함 2. 오른쪽 테이블의 필드는 왼쪽 레코드와 매칭되는 경우에만 채.. 2023. 6. 12. [2주차] SQL 장단점 & 기본 문법 SQL 장점 - 빅데이터를 처리하기 좋다 -구조화된 데이터를 처리하는데 적합하다 -어떤 작업을 하는건지 파악하기쉽다 단점 -비구조화된 데이터 처리에는 좋지 않다 기억해야할 점 현업에서 깨끗한 데이터란 존재하지 않음 ●항상 데이터를 믿을 수 있는지 의심하기 ●실제로 레코드를 몇 개 살펴보는 것이 중요 데이터 일을 한다면 항상 데이터의 품질을 의심하고 체크 ● 중복된 레코드 체크 ● 최근 데이터의 존재 여부 체크 ● Primary key uniqueness가 지켜지는지 체크하기 ● 값이 비어있는 컬럼들이 있는지 테크 ● 위의 체크는 코딩의 단위 테스트로 만들어 쉽게 체크할 수 있다 기본 문법 다수의 SQL 문을 실행한다면 세미콜론으로 분리 필요 ex) SQL문1; SQL문2; SQL문3 주석 -- : 인라인.. 2023. 6. 12. [1주차]AWS가 제공하는 데이터 웨어하우스 Redshift에 대해 알아보자 Redshift에 대해 알아보자 - 최대 2PB까지 처리 - OLAP, 응답 시간은 1초 미만이 아니라 고객 대면서비스에서 사용하면 안됨 - 대용량 업데이트 지원 - redshift serverless 가변비용방식도 출시 - 모든 데이터웨어하우스는 데이터의 크기, 속도 때문에 모든 PRIMARY키를 보장하지 않는다 - Postgresql 8.x 호환 Redshift 요금제 2023. 6. 7. [1주차] 데이터 엔지니어링, 데이터 웨어하우스란? 데이터 엔지니어링은 무엇인가 1. 데이터 웨어하우스 관리 2. 데이터 파이프라인(ETL=dag=data job) 관리 데이터 파이프라인 형식: batch vs realtime() ※ ETL(extract, transform, load)은 데이터웨어하우스 밖에 있는 데이터를 안으로 가져오는거 ※ ELT: 안에 있는걸 조합해서 새로운 데이터 만드는 것 데이터 엔지니어가 알아야 하는 기술 SQL: Hive, SQL, ... Programming Lanuage: Python, Scala, Java ETL/ELT Scheduler: Airflow, ... Cloud Computing: AWS Container Technology: K8S, Docker 데이터 웨어하우스란 무엇인가? 데이터 분석용 전용 데이터베이스.. 2023. 6. 7. [1주차] 데이터 팀의 비전과 가치를 만들어내는 방법 데이터 팀의 비전과 가치를 만들어내는 방법 Data warehouse: 데이터 분석을 위한 데이터베이스 ETL: 파이프라인, 내외부 데이터를 수집해 적재 데이터 파이프라인이 많아지면 airflow를 통해 관리하게 된다. 이런 일들을 하는 사람이 데이터 엔지니어다. 데이터 팀의 가치 1. 의사결정을 데이터 기반으로 객관적, 과학적 2. 데이터 과학자들이 데이터 속에서 패턴을 찾아서 서비스 개선 , 사용자들의 경험을 개인화를 통해 서비스 개선, 운영비용감소 데이터 팀의 비전 에어비앤비의 비전: build leverage for the company through trustworthy data, 신뢰할수 있는 데이터를 가지고 회사의 부가가치를 만든다 데이터 팀이 할수있는것은 회사의 가치를 높여주는것이다. 기여.. 2023. 6. 6. [1주차] 교육 커리큘럼과 요즘 커리어에 대해서 7주차 커리큘럼 1주차: 데이터팀의 역할과 Redshift 소개 2주차: SQL for Data Engineers 3주차: ETL/Airflow 소개 4주차: Airflow Deepdive 5주차: Airflow Deepdive 2 6주차: Productionizing Airflow 7주차: Spark과 커리어 톡(취준/면접) 요즘의 커리어란? 커리어는 정글짐이다. 예전에는 평생직장이라는 개념이 있어서 사다리에 비유할 수 있었고 큰 회사를 갈수록 좋았다. 하지만 시대가 변해서 이제는 어느 회사를 가든 대부분의 사람들이 여러 회사를 다니게 되는 경우가 많아서 큰 회사를 가는게 의미가 없다. 즉 커리어는 길게 바라봐야하고 남이랑 비교할 필요가 없다. 내가 원하는게 뭔지 생각하고 내가 생각하는 나의 삶을 살자.. 2023. 6. 6. 이전 1 다음 728x90