데이터 엔지니어링/Embulk
-
[Embulk] yml 파일 작성 형식 알아보기 Liquid template 이용하여 yml 파일안에서 변수 사용하기데이터 엔지니어링/Embulk 2022. 8. 30. 22:30
안녕하세요 까치입니다. 회사에서 Embulk를 이용하여 데이터를 s3에 올리는 작업을 하고 있는데 s3에 날짜 별로 폴더를 만들 수 있는지 공부 중에 있었습니다. 방법은 찾았는데 전체적으로 Embulk에서 yml파일을 작성하는 법과 변수를 만들어 사용하는 법 파일을 모듈로 작성하여 사용하는 법에 대해 알아 보려고 합니다. 홈페이지 참조하기 Embulk 공식 홈페이지에 yml파일을 작성하는 방법에 대해 나와있습니다. 아래의 주소로 들어가서 확인 이 가능합니다. 내용을 간략히 살펴 보면 Embulk: Configuration Embulk configuration file format Embulk uses a YAML file to define a bulk data loading. Here is an exam..
-
[Embulk] Embulk plugin 사용법 및 MySQL to PostgreSQL 패턴 만들기데이터 엔지니어링/Embulk 2022. 8. 21. 18:31
Embulk란? Embulk는 대용량을 이관하는 데이터 이관 툴이다. Embulk를 사용하기 무척이나 쉬워서 사용법만 간단히 알아보면 좋을 것같다. Embulk는 이관을 할때 플러그 인 단위로 붙여서 이관을 하게 된다. Embulk plugin이란? 이번에 할 것은 MySQL to PostgreSQL로 데이터를 이관하는 것을 할 것인데 아래와 같은 그림으로 설명 할 수 있다. Embulk서버에 Source라는Plugin을 다운로드하여야 하고 이관해줄 목적지인 Sink라는plugin을 다운로드하여야 한다. puglin의 종류는 아래의 홈페이지에서 확인 가능하다. List of Embulk Plugins by Category List of Plugins by Category This list is no lo..
-
[Embulk] Embulk란? Embulk설치하고 기본 실행해보기데이터 엔지니어링/Embulk 2022. 8. 18. 22:26
Embulk란? 데이터 소스간 대용량 데이터 전송 오픈소스 솔루션이다. Sqoop과 같은 역할을 한다. 데이터 소스, 스토리지 , 파일 포맷 클라우드 서비스 등 플러그인을 지원한다. JDBC를 이용하여 뭉뜬그려서 DB에 접속하고 데이터 이동이 가능하지만, 플러그인 형으로 진행한다. 플러그인 없으면 조금 힘들다. Embulk github에 많은 플러그인들이 배포되어있으며 현재도 개발중에 있다. Embulk 특징 데이터의 병렬 로딩을 수행할 수 있다. Embulk 스크립트로 부터 쿼리를 읽어 Transaction단위로 작업을 생성한다. Transaction을 지정한 Thread 수만큼 task를 나누어 독립적으로 수행한다. Thread로 task를 진행하기 때문에 resource의 관리에 신경을 써야한다. ..