-
Airbyte 알아보고 사용해 보기데이터 엔지니어링/Airbyte 2022. 12. 6. 22:30반응형
Airbyte란?
- Airbyte는 ELT의 주요 요소인 데이터 통합 플랫폼 스타트업 기업이다.
- 오픈소스이며, 소스는 airbyte라는 회사에서 관리한다.
- ELT에서 EL을 손쉽게 구현할 수 있도록 도와주는 툴을 제공한다.
- 수많은 커넥터를 제공한다.
- CDC도 손쉽게 구현 할 수 있게 도와준다
- T에서 약점을 가지고 있지만, dbt를 이용하여 문제점을 해결할 수 있다.
Airbyte 설치하기
- 오픈 소스 이므로 아래의 코드로 다운 받아서 docker로 올리면 된다 해당 내용은 airbyte 공식 문서에서 확인 가능하다.
git clone <https://github.com/airbytehq/airbyte.git> cd airbyte docker-compose up
- container가 다 올라갔다면, http://localhost:8000/ 로 접속 하여 확인
- 초기 id : airbyte, pw : password로 접속 가능
- 로그인 하였다면 아래와 같은 화면이 나온다.
- 관련 정보를 입력하면 web에 접속이 가능하다
Airbyte로 구성요소 알아보기
먼저 airbyte는 데이터 통합하기 위한 데이터 이관 툴이기 때문에 source와 sink를 구성하여 실행 시켜 주어야 한다. 먼저
source 구성하기
먼저 source 구성하기 - 많은 종류의 source connector를 제공한다.
setup guide도 자세히 나오며 host, port, username, password, schema등 설정 할수 있다. CDC를 이용하려면 airbyte 버전을 0.40.0-alpha 버전 이상으로 올려야 한다고 한다.
복제 방법에서 Standard(그냥 이관)와 CDC(데이터 변경 분 이관)를 제공한다. CDC를 이용하려면 user에게 권한을 할당하여야한다. setup문서에서 확인 후 설정
Destination구성하기
많은 종류의 destination을 제공한다.
setup guide도 나오며 접속 인증 도 설정하여 저장할 수 있다.
Connection만들기
위에서 source와 destination을 만들었다면, Connection 탭에서 연결하여 데이터 이관을 실행 시켜주면된다.
마치며
CDC를 제공한다는 점에서 매우 좋은 이관툴인 것 같다. 그런데 제약 조건이(postgres) 많아서 아직까진 완벽하진 않은 것 같다. postgres의 경우 데이터베이스 용량이 100GB아래의 것으로 사용하는 것을 권장하고 있다. 좀… 이 부분은 조금 걸리는 부분이긴 하다. 요즘에는 AWS DMS도 같은 역할을 해주는데(비싸긴 함) 엄청나게 특별한 것이 있는 것 같진 않다. 오픈소스여서 가격적으론 이득이 있는 듯 보인다.
반응형