Amazon Kinesis
AWS에서 데이터를 처리한는 방법
AWS에서 데이터를 처리한는 방법
EMR(Elastic MapReduce) Managed Hadoop Spark, Hbase, Hive 등도 포함 내부적으로 EC2 인스턴스를 활용 다른 AWS 서비스들과 통합가능(S3)
EMR클러스터 생성
AWS 활용한 데이터 분석 처리 간단한 쿼리 등을 EMR로 수행하기에는 비효율적이다. 따라서 좀 간단한 S3 Select 또는 Athena 등의 서비스를 활용한다. S3 데이터에 직접 SQL 쿼리를 실행 가능 쿼리 실행시 스캔한 데이터 용량에 대해서만 비용을 지불하...
Amazon S3 Amazone Simple Storage Service 2006년에 출시된 최초의 AWS 서비스 웹 서비스 인터페이스를 통해 언제 어디서나 원하는 데이터 접근 가능
MapReduce 설계 특성 분산 컴퓨팅에 적합한 분산 프로그래밍 모델 Map과 Reduce함수를 합친말 Map은 분산되어 있는 데이터를 연관성있는 데이터들로 분류하는 작업 Reduce 원하는 데이터를 추출하는 작업 Data Locality를 최대한 활용 F...
HDFS의 설계 대용량 데이터 저장 : 하나의 파일이 terabyte, petabyte이상의 사이즈로 저장 장애복구 : 장애를 신속하게 감지하고 대처할 수 있도록 설계 데이터의 무결성 : 한번 저장된 데이터를 수정 할 수 없고 읽기만 가능하게 해서 데이터 무결정을 유지
실습환경 여러 하둡을 패키지로 묶어놓은 것 : HDP(Hortonworks Sandbox) Virtural Box
Hadoop 소개 하둡은 빅데이터를 분산,저장,처리 할 수 있는 자바기반의 오픈소스 프레임워크 기존의 OLTP(실시간 처리를 위한 데이터 베이스)용 데이터베이스에서 발생하는 문제를 해결 3V (Volumn, Velocity, Variety)의 문제 큰데이터를 저렴한...
EC2 서비스 생성 실습