데이터 엔지니어링/Hadoop
-
[Hadoop Yarn]Yarn 동작 과정 알아보기데이터 엔지니어링/Hadoop 2022. 8. 12. 21:15
저번에는 하둡의 동작 원리에 대해 알아 보았는데 이번에는 Yarn의 동작 원리에 대해 알아두면 좋을 것같아 공부를 하게 되었다. Yarn은 ResourceManager이다. Node(=Slave)의 resource(자원= memory, disk 등)을 어떻게 쓸지 관리 해주는 매니저 역할을 한다. Hadoop에 Yarn 구축 아키텍쳐 예를 들어 위와 같이 Hadoop을 총 3대의 노드와 1대의 마스터를 구성했다고 가정 해보자. 거기에 Yarn넣었다고 하면 위와 같은 이미지가 나온다. 실제로 Yarn 동작 순서 Yarn은 Resource Manager를 실행 시킨다. RM(Resource Manager=Hadoop의 Master)은 클러스터 당 하나만 존재한다. Yarn은 클러스터를 구성하고 있는 각 노드..
-
[Hadoop] 클러스터 구축하기 NameNode2, DataNode 3, yarn, spark, zookeeper 구성 하기(centos7)데이터 엔지니어링/Hadoop 2022. 8. 10. 21:06
안녕하세요 이번 포스팅은 하둡 클러스터 구축하는 법에 대해 알아 볼까 합니다. 데이터 엔지니어링에서 하둡이 빼놓을 수 없는 중요한 요소 이기 때문에 이번에 잘 정리해서 기록해 두는게 좋을 것같아 준비 했습니다. 저는 Virtual box에 CentOS7으로 진행을 했고 NameNode 2 , DataNode 3를 준비하여 진행 했습니다. 그림으로 표현하면 아래와 같습니다. 해당 작업을 진행하기 전에 Oracle VirtualBox와 Centos를 준비해주시기 바랍니다. 먼저 버츄얼 박스를 펴서 고정 IP로 통신을 하도록 하기 위해 vm에 고정 ip를 할당해 보겠습니다. 그정에 정보를 알아야하는데 windows cmd창을 열어 ipconfig을 치면 ip주소 정보가 나옵니다. 여기서 ipv4 기본 게이트웨..
-
[Hadoop] Hadoop의 클러스터 구성, 파일 저장 되는 원리, 파일 읽는 원리 이해하기데이터 엔지니어링/Hadoop 2022. 8. 10. 20:27
안녕하세요. 이번에 데이터 엔지니어링을 하면서 docker로 진행을 많이 했었는데 한계점이 많은 것 같아 하둡 클러스터를 구축하여 여러가지 hadoop eco system을 연습하기로 마음을 먹었습니다. 그래서 Hadoop + yarn + spark + zookeeper + zeppelin 등을 구축하고 추가적으로 다른 툴들(impala, ambari, hive등)을 붙여서 연습해볼 예정입니다. 위에 이미지가 제가 구축 할 내용입니다. 먼저 하둡 클러스터를 구성을 할 것인데 하둡이 이번 글에서는 하둡이 어떻게 동작하는지 먼저 알아 두어야 할 것 같아 하둡의 동작 원리에 대해 정리 하려고 합니다. HDFS(Hadoop Distributes FileSystem) - 하둡 네트워크에 연결된 기기에 데이터를 분..