-
[HIVE]Hive란 2부 - 서비스들 설명데이터 엔지니어링/Hive 2022. 9. 18. 17:09반응형
메타스토어 - 메타데이터(스키마) 저장하는 데이터베이스
Hadoop은 HDFS를 기반으로 동작한다, 즉 빅데이터용 저장소 라는 얘기다. Hive는 이를 SQL기반으로 편리하게 데이터 조작을 가능하게 해주는 툴이다. 하지만 SQL을 이용할려면 컬럼이나 스키마 같은 정보가 있어야한다. 그런데 SQL 을 날릴때마다 스키마 정보를 만들어서 사용하면 어떻게 할까 여간 불편한게 아니다. 그래서 스키마 정보를 저장해서 SQL을 날릴때 이 정보를 가지고 쿼리가 동작하게 되는데 이것이 메타스토어이다. 그래서 메타스토어는 DB로 만들어야 한다. 즉 메타스토어는 스키마 정보를 가지고 있는 데이터베이스이다. 아래 3가지 형태로 관리가 가능하다.
- 임베디드
- 별도의 데이터 베이스를 구성하지 않고 더비 DB를 이용
- 한번에 하나의 유저만 접근가능
- 로컬
- 별도의 데이터베이스를 가지고 있지만, 하이브 드라이버와 같은 JVM에 동작
- 리모트
- 별도의 데이터베이스를 가지고, 별도의 JVM에서 단독으로 동작하는 모드
- 리모트로 동작하는 하이브 메타스토어를 HCat서버라고도 함
하이브서버2
- hive 서버를 두어 외부에서 연동 할 수 있도록 도와준다.
- 쓰리프트, jdbc, ocbc 연결하여 애플리케이션간 통신이 가능하다.
- 즉, 많은 애플리케이션과 호환성을 유지시켜주거나 서버를 통해 접근가능하게 해준다.
HCatalog
- Pig,MR, Spark에서 하이브 데이터 파일에 접근 할 수 있도록 도와주는 추상계층
WebHCat
- HCatalog의 기능을 REST API로 제공함. 기본적으로 50111포트를 이용함
비라인(beeline)
- 일반적인 CLI처럼 내장형 모드로 작동하거나 JDBC로 하이브서버2 프로세스에 접근할 수 있음
- CLI는 로컬 환경에서 접근이 가능함
- 비라인은 외부에서 접근이 가능함
- 비라인으로 Hive에 접근 할려면 Hadoop HOME과 Hive 설정을 해주어야함 보통 수기로 하지 않고 Ambari로 자동 설정 되도록 함
참고문헌
반응형'데이터 엔지니어링 > Hive' 카테고리의 다른 글
- 임베디드