ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Airbyte 알아보고 사용해 보기
    데이터 엔지니어링/Airbyte 2022. 12. 6. 22:30
    반응형

    Airbyte란?

    • Airbyte는 ELT의 주요 요소인 데이터 통합 플랫폼 스타트업 기업이다.
    • 오픈소스이며, 소스는 airbyte라는 회사에서 관리한다.
    • ELT에서 EL을 손쉽게 구현할 수 있도록 도와주는 툴을 제공한다.
    • 수많은 커넥터를 제공한다.
    • CDC도 손쉽게 구현 할 수 있게 도와준다
    • T에서 약점을 가지고 있지만, dbt를 이용하여 문제점을 해결할 수 있다.

    Airbyte 설치하기

    • 오픈 소스 이므로 아래의 코드로 다운 받아서 docker로 올리면 된다 해당 내용은 airbyte 공식 문서에서 확인 가능하다.
    git clone <https://github.com/airbytehq/airbyte.git>
    cd airbyte
    docker-compose up
    
    • container가 다 올라갔다면, http://localhost:8000/ 로 접속 하여 확인
    • 초기 id : airbyte, pw : password로 접속 가능
    • 로그인 하였다면 아래와 같은 화면이 나온다.
    • 관련 정보를 입력하면 web에 접속이 가능하다

    Airbyte로 구성요소 알아보기

    먼저 airbyte는 데이터 통합하기 위한 데이터 이관 툴이기 때문에 source와 sink를 구성하여 실행 시켜 주어야 한다. 먼저

    source 구성하기

    먼저 source 구성하기 - 많은 종류의 source connector를 제공한다.

    setup guide도 자세히 나오며 host, port, username, password, schema등 설정 할수 있다. CDC를 이용하려면 airbyte 버전을 0.40.0-alpha 버전 이상으로 올려야 한다고 한다.

    복제 방법에서 Standard(그냥 이관)와 CDC(데이터 변경 분 이관)를 제공한다. CDC를 이용하려면 user에게 권한을 할당하여야한다. setup문서에서 확인 후 설정



    Destination구성하기

    많은 종류의 destination을 제공한다.

    setup guide도 나오며 접속 인증 도 설정하여 저장할 수 있다.




    Connection만들기

    위에서 source와 destination을 만들었다면, Connection 탭에서 연결하여 데이터 이관을 실행 시켜주면된다.




    마치며

    CDC를 제공한다는 점에서 매우 좋은 이관툴인 것 같다. 그런데 제약 조건이(postgres) 많아서 아직까진 완벽하진 않은 것 같다. postgres의 경우 데이터베이스 용량이 100GB아래의 것으로 사용하는 것을 권장하고 있다. 좀… 이 부분은 조금 걸리는 부분이긴 하다. 요즘에는 AWS DMS도 같은 역할을 해주는데(비싸긴 함) 엄청나게 특별한 것이 있는 것 같진 않다. 오픈소스여서 가격적으론 이득이 있는 듯 보인다.

    반응형

    댓글

Designed by Tistory.