본문 바로가기

데이터엔지니어링

(4)
Dataproc과 Dataflow DataprocApache Spark와 Apache Hadoop 클러스터를 더 간단하고 효율적으로 실행할 수 있게 도와줄 수 있는 관리형 서비스특징알려진 크기의 데이터를 갖고 있거나 소유하고 있는 클러스터의 크기를 관리할 때 유용함실시간으로 보여지거나 예측할 수 없는 크기라면, Cloud Datatflow를 사용 권장dataproc과 로컬 spark 사용 차이점Google Cloud Dataproc과 BigQuery 통합통합성: Dataproc은 Google Cloud의 일부로, BigQuery와의 통합이 원활함. 예를 들어, BigQuery에서 직접 데이터를 읽거나 쓰는 것이 간편함. Dataproc 클러스터는 Google Cloud의 네트워크 내에서 실행되기 때문에 높은 대역폭과 낮은 지연 시간으로 ..
EC2 인스턴스 위에 Airflow 설치 Instance 설정 public subnet instance1(Bastion Host) 보안을 위해 airflow를 프라이빗에 설치하고 내부로 접속하기 위해 bastion host를 설치 사양 t3.medium / 4GiB 메모리 linux 22.04 private subnet instance1(webserver, scheduler, celery worker, celery flower, postgres, rabbitmq) insatnce2(celery worker) instance3(celery worker) 사양 t3.medium / 4GiB 메모리 linux 22.04 VPC 설정 a, b 두개의 가용영역 각 가용영역마다 1개의 public, 3개의 private subnet NAT Gateway배..
airflow Import MysqlDb 에러 해결과정 이전 글에서 airflow를 설치하고 mysql -> s3 -> redshift 순으로 데이터를 적재하는 dag를 실행하는데 아래와 같은 에러를 만났다. 해당 에러를 해결하기 위해 docker ps를 통해 scheduler의 container id를 확인 docker exec --user root -it {scheduler container id} sh 를 사용해서 root권한으로 접속 아래 3개의 명령어를 실행 sudo apt-get update sudo apt-get install -y default-libmysqlclient-dev sudo apt-get install -y gcc sudo pip3 install --ignore-installed "apache-airflow-providers-mys..
Airflow설치 - docker기반 Docker를 이용한 Airflow 설치 과정 git clone https://github.com/apache/airflow.git 을 사용해서 airflow를 설치 airflow-setup 폴더로 이동, 원하는 버전에 해당하는 이미지 관련 yml 파일 다운로드 ex) curl -LfO "https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml" docker-compose -f docker-compose.yaml pull #airflow설치에 사용되는 도커 이미지 다운로드 docker-compose -f docker-compose.yaml up #해당 도커 이미지 실행 airflow를 시작하기 전에, 성공/실패에 대한 log를 제대..