EMR 개요
EMR(Elastic MapReduce)
- Managed Hadoop
- Spark, Hbase, Hive 등도 포함
- 내부적으로 EC2 인스턴스를 활용
- 다른 AWS 서비스들과 통합가능(S3)
EMR Nodes
- Master Node - Cluster관리를 위한 노드
- Core Node - HDFS 및 Job 실행을 위한 노드
- Task Node - Job 실행만을 위한 노드 (Data는 저장하지 않음)
EMR 사용
- 클러스터 생성 후 MR Job 실행
- Master Node에 접속하여 실행 가능
- Management Console 사용하여 실행 가능
- Hue/Ambrari를 활용하여 실행 가능
EMR과 AWS 타 서비스의 통합
- EC2 : Job 실행하기 위한 Computing, HDFS 데이터 저장
- S3 : 로그 데이터 등을 저장
- Cloud Watch : EMR 클러스터의 상태를 모니터니링
- Cloud Tail : EMR Job 실행에 대한 Auditing
- VPC : EMR 클러스터를 Virtural Private Network에서 수행
댓글남기기