EMR 클러스터 생성 및 Hive 사용

2022-07-19 최대 1 분 소요

EMR클러스터 생성

클러스터 생성 클릭
고급옵션으로 이동 : 빠른옵션 (Availability 때문에 오류 발생 가능성 있음)
소프트웨어 구성, 변경없이 다음 클릭
하드웨어 구성, 변경없이 다음 클릭
일반옵션, 큰 변경없이 다음 클릭
보안옵션, 본인 키페어 선택 후 생성

Hive

Hadoop Ecosystem 중 Data Warehouse의 기능을 담당
SQL과 유사한 쿼리를 사용하여 데이터를 탐색/처리 : HiveQl
Sql 쿼리를 MapReduce 또는 Tez Job으로 변환

Hive 사용방법

Hive Shell을 사용
Query File을 사용하여 수행
-e 옵션을 사용하여 HiveQL을 직접수행
Ambari/Hue를 이용한 Web UI 에디터 사용

Hive Table 생성 및 쿼리 예시

생성

CREATE EXTERNAL TABLE rating
(user_id INT,
movie_id INT,
rating INT,
rating_time INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION 's3://.../rating/';

조회

select m.movie_name, t.rating_count
from movie_info m join top_count t
on m.movie_id = t.movie_id;

Hive Meta Store

Hive Table로 관리하기 위해서 File의 메타정보를 관리
Column 이름, 데이터 타입 등이 Meta정보
File 자체는 아무런 Meta 정보르를 갖고 있지는 않음
RDBMS를 사용하여 Meta 정보를 관리
Meta 정보를 저장하는 공간을 Meta Store라고 함

Twitter Facebook LinkedIn

electron 에서 sqlite3설치후 Cannot find module node_sqlite3.node 오류 발생시 해결 방법

2022-08-26 최대 1 분 소요

Electron Vue 환경에서 sqlite3 설치시 다음과 같은 에러가 발생하는 경우가 있다.

텍스트마이닝 토픽모델, LDA(Latent Dirichlet Allocation)

2022-08-20 2 분 소요

토픽모델이란 문서와 단어로 구성된 행렬(Document Term Matrix)를 기반으로 문서에 잠재된 토픽의 등장확률을 추정하는 기법으로 분석결과를 직관적이고 정교하게 보여주게 된다. 즉 토픽과 단어의 확률 분포를 바탕으로 새로운 문서를 생성하기 때문에 생성모델 이라고도 한다. ...

[d3.js] d3.js 오류

2022-08-20 최대 1 분 소요

d3 버전차이에 의한 오류

[hive.connect] thrift.transport.TTransport.TTransportException 오류 발생

2022-08-15 최대 1 분 소요

파이썬으로 hive.connect 오류 발생시 포트나 호스트 IP를 체크 해야 합니다. port 10000 번을 사용하기 때문에 10000번 포트가 열려 있는지 확인하세요.