클라우드 컴퓨팅 개념 | Data Study

클라우드 컴퓨팅 개념

2022-07-17 1 분 소요

클라우드 컴퓨팅은 현재 가장 Hot 기술로, 기업의 사업본질의 집중과 효율성 극대화를 위해 도입

개념

컴퓨팅 자원을 원하는 만큼 상용 하고 요금을 지불하는 형태
컴퓨터의 리소를 서비스 형태로 제공 받는것
자원을 수요에 탄력적 으로 사용 가능 하게 됨

4가지 특징

On Demand ( Resource에 대한 On demand )
- 사용한 만큼만 지불 하기 때문에 초기비용이 낮아서 Risk를 줄일 수 있다
대규모 확장성
종량제 과금
관리의 편리성

Big Data Tech Stack

Data Store

Scale - up : 하드웨어 스펙을 상향하는 것 , Scale - out : 동일한 스펙을 여러개 붙이는 것
최근 단일 RDBMS에서 저장이 불가능 수준의 Big Data 때문에 HDFS 기술이 발전됨(Hadoop Distributed File System)
NoSql : Document Base, Key/Value, Column Orinted, Graph 형태의 저장 기술
- RDBMS에서는 Scale-out이 어렵다
- NoSql은 태생적으로 Scale-Out이 가능
- Ex) Aws DynamoDB , Cassendra, Cloud Spanner 등…

Data Processing & Analytics

Data Processing
- 전처리, Data Type 변환
- 실시간 처리 적용 등
Data Analytics
- Data로 부터 의미, 기치를 추출
Hadoop MapReduce : Big Data를 Split 하여 HW에 나눠서 처리하게 됨
- MapReduce에서 코딩으로 구현하면 어렵기 때문에 Hive, Pig 등이 나오게 됨(SQL과 유사)
대용량 기술을 위한 처리 언어등 : SQL , R, Python 등 (SQL을 많이 사용)

Data Visualization

Matplot, Seaborn 등
오픈소스 라이브라러 직접 구현(D3.js 등), 무려 시각화(Kibana, Grafana), 상용 시작화(Redash, Tableau)

Data Ingestion (Collection)

Data가 발생하는 다수의 지점으로 부터 Data를 원하는 저장소로 옮기는 작업
Flumne : File 데이터를 HDFS로 적재
Sqoop : RDBMS의 데이터를 HDFS로 적재
Kafka : 분산 Data스트리밍 플랫폼, 처리속도가 빠름

Workflow Management

데이터 처리/분석 작업은 여러 단계를 거치는 이를 정의, 스케쥴 하여 자동화 시키는 것
예시 - Apache Oozie, Apache Airflow : WorkFlow 진행

Big Data 와 Cloud Computing

클라우드 사업자가 제공하는 하는 데이터 분석

Amazon S3 : 대용량의 File을 저장할 수 있는 Storage 서비스 , CSV 분석 등
Amazon Athena : S3에 저장된 CSV 등의 파일 분석, 쿼리 후 스캔한 데이터에 대한 비용만 지불
Amazon Kinesis :
- 처리된 데이터를 S3, Redshift, Elasticsearch 등으로 저장 가능

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

electron 에서 sqlite3설치후 Cannot find module node_sqlite3.node 오류 발생시 해결 방법

2022-08-26 최대 1 분 소요

Electron Vue 환경에서 sqlite3 설치시 다음과 같은 에러가 발생하는 경우가 있다.

텍스트마이닝 토픽모델, LDA(Latent Dirichlet Allocation)

2022-08-20 2 분 소요

토픽모델이란 문서와 단어로 구성된 행렬(Document Term Matrix)를 기반으로 문서에 잠재된 토픽의 등장확률을 추정하는 기법으로 분석결과를 직관적이고 정교하게 보여주게 된다. 즉 토픽과 단어의 확률 분포를 바탕으로 새로운 문서를 생성하기 때문에 생성모델 이라고도 한다. ...

[d3.js] d3.js 오류

2022-08-20 최대 1 분 소요

d3 버전차이에 의한 오류

[hive.connect] thrift.transport.TTransport.TTransportException 오류 발생

2022-08-15 최대 1 분 소요

파이썬으로 hive.connect 오류 발생시 포트나 호스트 IP를 체크 해야 합니다. port 10000 번을 사용하기 때문에 10000번 포트가 열려 있는지 확인하세요.