-
[Hadoop Yarn]Yarn 동작 과정 알아보기데이터 엔지니어링/Hadoop 2022. 8. 12. 21:15반응형
저번에는 하둡의 동작 원리에 대해 알아 보았는데 이번에는 Yarn의 동작 원리에 대해 알아두면 좋을 것같아 공부를 하게 되었다. Yarn은 ResourceManager이다. Node(=Slave)의 resource(자원= memory, disk 등)을 어떻게 쓸지 관리 해주는 매니저 역할을 한다.
Hadoop에 Yarn 구축 아키텍쳐
예를 들어 위와 같이 Hadoop을 총 3대의 노드와 1대의 마스터를 구성했다고 가정 해보자. 거기에 Yarn넣었다고 하면 위와 같은 이미지가 나온다.
실제로 Yarn 동작 순서
- Yarn은 Resource Manager를 실행 시킨다.
- RM(Resource Manager=Hadoop의 Master)은 클러스터 당 하나만 존재한다.
- Yarn은 클러스터를 구성하고 있는 각 노드에서 Node Manager를 실행 시킨다.
- NM(Node Manager)는 해당 노드의 Resource를 관리한다.
- 그림상으로 풀어 해보면 Client에서 RM에게 나 어떤 작업을 하고 싶으니 용량좀 주라 라고 요청한다.
- RM은 1,2,3번 노드들에게 용량이 얼마나 있냐고 물어보고 Node Manager들은 각각 cpu, disk등 얼마가 남아 있다고 알려준다.
- RM은 각각의 NM들에게 할당 가능한 용량의 크기를 각각에 맞게 할당 해달라고 요청 Container를 만들어 RM에게 준다.
- RM은 할당된 Container를 다시 AM(application master)에게 준다
- AM은 할당된 자원을 가지고 Job Tracker, Task Tracker등을 만들어 작업을 수행한다.
- AM은 작업이 끝나면 모든 Resouce를 다시 RM에게 반납 RM은 각각의 할당된 용량을 사용할 수 있다고 NM에게 알려준다.
Yarn은 위와 같은 원리로 자원을 관리 및 컨드롤을 해준다. Hadoop Ecosystem에서는 없어서는 안될 존재 인 듯 하다.
참고문헌
반응형'데이터 엔지니어링 > Hadoop' 카테고리의 다른 글
[Hadoop] 클러스터 구축하기 NameNode2, DataNode 3, yarn, spark, zookeeper 구성 하기(centos7) (10) 2022.08.10 [Hadoop] Hadoop의 클러스터 구성, 파일 저장 되는 원리, 파일 읽는 원리 이해하기 (0) 2022.08.10