Category

토픽모델이란 문서와 단어로 구성된 행렬(Document Term Matrix)를 기반으로 문서에 잠재된 토픽의 등장확률을 추정하는 기법으로 분석결과를 직관적이고 정교하게 보여주게 된다. 즉 토픽과 단어의 확률 분포를 바탕으로 새로운 문서를 생성하기 때문에 생성모델 이라고도 한다. ...

텍스트마이닝 군집과 분류

2022-08-05 2 분 소요

독립변수(X변수) 만의 변수들만 활용 하여 군집과 분류 하게됨.

감성분석 - Machine Learing

2022-08-04 2 분 소요

IMDB 영화 리뷰 데이터 ML 기반 감성분석( CountVectorizer 활용 )

감성분석 - 규칙기반

2022-08-04 3 분 소요

감성분석 이란? 문서의 감성/의견/기분 등을 파악하기 위한 기법으로, 편향없는 기계적인 분석 분석에는 두가지 방법이 있는데, 사람이 작성한 규칙 기반 알고리즘을 사용 : 특정 단어와 감성 점수의 쌍을 담은 사전(lexicon) 기반이며, VADER 알고...

텍스트 마이닝을 위한 문서의 벡터 변환

2022-08-03 4 분 소요

텍스트 문서를 컴퓨터가 인식할 수 있는 다양한 방법에 대해서 알아 보기로 함

텍스트 전처리

2022-08-02 7 분 소요

토큰화

텍스트마이닝 이론

2022-03-25 1 분 소요

개념 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리(Natural Language Processing)방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법

텍스트마이닝 예제 (R을 활용) - 3

2022-03-25 1 분 소요

텍스트 마이닝 분석 이후 연관분석 까지 실시해서 분석 해본다.

텍스트마이닝 예제 (R을 활용) - 2

2022-03-25 최대 1 분 소요

국문에 대해 간단한 텍스트 마이닝을 통해 워드 클라우드를 만드는 예제

텍스트마이닝 예제 (R을 활용) - 1

2022-03-25 1 분 소요

영문에 대해 간단한 텍스트 마이닝을 통해 워드 클라우드를 만드는 예제

맨 위로 이동 ↑

aws

Amazon Kinesis

2022-07-20 1 분 소요

AWS에서 데이터를 처리한는 방법

EMR 개요

2022-07-19 최대 1 분 소요

EMR(Elastic MapReduce) Managed Hadoop Spark, Hbase, Hive 등도 포함 내부적으로 EC2 인스턴스를 활용 다른 AWS 서비스들과 통합가능(S3)

EMR 클러스터 생성 및 Hive 사용

2022-07-19 최대 1 분 소요

EMR클러스터 생성

S3 Select

2022-07-19 최대 1 분 소요

AWS 활용한 데이터 분석 처리 간단한 쿼리 등을 EMR로 수행하기에는 비효율적이다. 따라서 좀 간단한 S3 Select 또는 Athena 등의 서비스를 활용한다. S3 데이터에 직접 SQL 쿼리를 실행 가능 쿼리 실행시 스캔한 데이터 용량에 대해서만 비용을 지불하...

Amazone S3 소개 및 실습

2022-07-19 최대 1 분 소요

Amazon S3 Amazone Simple Storage Service 2006년에 출시된 최초의 AWS 서비스 웹 서비스 인터페이스를 통해 언제 어디서나 원하는 데이터 접근 가능

Hadoop MapReduce 소개 및 실습

2022-07-19 최대 1 분 소요

MapReduce 설계 특성 분산 컴퓨팅에 적합한 분산 프로그래밍 모델 Map과 Reduce함수를 합친말 Map은 분산되어 있는 데이터를 연관성있는 데이터들로 분류하는 작업 Reduce 원하는 데이터를 추출하는 작업 Data Locality를 최대한 활용 F...

Hadoop HDFS 소개 및 실습

2022-07-19 최대 1 분 소요

HDFS의 설계 대용량 데이터 저장 : 하나의 파일이 terabyte, petabyte이상의 사이즈로 저장 장애복구 : 장애를 신속하게 감지하고 대처할 수 있도록 설계 데이터의 무결성 : 한번 저장된 데이터를 수정 할 수 없고 읽기만 가능하게 해서 데이터 무결정을 유지

Hadoop 실습

2022-07-19 최대 1 분 소요

실습환경 여러 하둡을 패키지로 묶어놓은 것 : HDP(Hortonworks Sandbox) Virtural Box

Hadoop 소개

2022-07-19 2 분 소요

Hadoop 소개 하둡은 빅데이터를 분산,저장,처리 할 수 있는 자바기반의 오픈소스 프레임워크 기존의 OLTP(실시간 처리를 위한 데이터 베이스)용 데이터베이스에서 발생하는 문제를 해결 3V (Volumn, Velocity, Variety)의 문제 큰데이터를 저렴한...

EC2 및 Nginx 설치

2022-07-18 최대 1 분 소요

EC2 서비스 생성 실습

맨 위로 이동 ↑

basicPy

Python Pandas 기초

2022-03-15 4 분 소요

Pandas 라이브러리 (데이터처리용)

Python SciPy 기초

2022-03-15 1 분 소요

SciPy 라이브러리 (데이터처리용)

Python MatPlotLib 기초

2022-03-15 최대 1 분 소요

MatPlotLib 라이브러리 (데이터시각화)

Python Numpy 기초

2022-03-15 최대 1 분 소요

Numpy 라이브러리 (데이터처리용)

파이썬 big Data 분석을 위한 주요 라이브러리 소개

2022-03-14 3 분 소요

데이터 처리를 위한 라이브러리

Python 객체지향

2022-03-13 3 분 소요

객체지향 프로그래밍 (OOP : Object Oriented Programming) 프로그램을 명령어의 나열로 보는 시각에서 벗어나 여러 개의 독립된 단위인 “객체”들의 모임으로 파악하는 것으로 클래스, 속성, 메서드로 구성을 이루고 있다. 객체지향은 캡슐화(Encapsu...

Python 흐름제어, 함수

2022-03-13 최대 1 분 소요

선택적흐름 과 반복적 흐름

Python 식별자와 연산자

2022-03-13 최대 1 분 소요

식별자

Python 데이터 타입

2022-03-13 최대 1 분 소요

기본자료형 (정수,실수,복소수,논리형,문자열)

맨 위로 이동 ↑

analysisBasic

통계 심슨의역설(Simpson’s Paradox)

2022-03-16 2 분 소요

개념 심슨의 역설은 데이터의 상세 그룹에서 나타나는 평균, 추세 등과 이를 전체 그룹화 시켜서 평균, 추세 등을 비교 해보면 서로 상반되거나 다른 결론에 이룰 수 있다는 역설이다. 좀 더 간단하게 표현해 보자면

통계 경험의법칙(chebishev’s Rule & Emprical)

2022-03-16 1 분 소요

chebishev’s Rule 체비셔프 부등식 : $P(| x- \mu | < k \sigma) = P[\mu -k \sigma < x < \mu +k \sigma] \geq 1 - \frac{1}{k^2}$ chebishev’s Rule에 의하면, ...

통계 자료의 스케일링

2022-03-16 1 분 소요

데이터 분석시 많이 발생하는 것이 단위의 불일치 이다. 이에 대한 해결로는 정규화(Normalization)과 표준화(Standardization)이 있다.이 스케일링 방법은 단위가 다를 때 대상 데이터를 같은 기준으로 보도록 한다.

통계 범주형 자료의 표현

2022-03-15 최대 1 분 소요

범주형 자료의 표현 방법

통계 수량형 자료의 표현

2022-03-15 1 분 소요

자료의 표현 및 Data Visualization

통계 데이터의 표현과 요약

2022-03-14 3 분 소요

통계의 자료의 요약 방법에 대해 알아본다.

정확도와 정밀도의 개념

2022-03-14 2 분 소요

통계 용어중 정확도(Accuracy)와 정밀도(Precision)에 대해서 알아보자

통계자료의 종류

2022-03-13 최대 1 분 소요

통계의 자료는 측정도구 등에 따라 달라지고 그 분류에 따라 처리 방식이 달라 진다.

맨 위로 이동 ↑

association

연관성분석 예제(1)

2022-03-15 2 분 소요

분석개요

연관성분석 transactions class

2022-03-13 1 분 소요

연관성 분석에 사용되는 데이터 유형은 idi형태가 아닌 itl 형태의 데이타가 사용된다.

연관성분석 이론

2022-03-13 2 분 소요

연관성분석은 장바구니분석(Market Basket Analysis) 또는 서열분석(Sequence Analysis) 이라고도 한다 기업의 데이터에서 상품구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견 할 목적으로 사용된다. 주요 응용은 Market basket anal...

맨 위로 이동 ↑

decisiontree

의사결정나무 이론

2022-03-23 3 분 소요

의사결정 나무는 간단하게 말해 if~else와 같이 특정 조건을 기준으로 O/X로 나누어 분류/회귀를 진행하는 tree 구조의 분류/회귀 데이터마이닝 기법이다.

의사결정나무 분석절차 및 R 패키지

2022-03-23 1 분 소요

1. 의사결정나무 분석절차

의사결정나무 분석사례 - 1

2022-03-23 2 분 소요

A. 데이터 준비

맨 위로 이동 ↑

casebased

사례기반추론 이론

2022-03-24 2 분 소요

사례기반추론(Case-Based Reasoning, CBR)개념 과거의 사례들의 결과를 바탕으로 새로운 사례 결과를 예측하는 방법 굉장히 간단하지만, 유용성이 매우크다. 과거 사례들을 저장해 둔 사례 기반으로부터 해결하고자 하는 새로운 사례와 가장 유사한 사례를 검색한...