Category

statistics

확률변수, 확률분포

1 분 소요

추측 통계학을 연결하는 중간적인 개념으로 확률 변수가 발생한다.

베이즈 정리

최대 1 분 소요

두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다

맨 위로 이동 ↑

basicR

R ggplot visualization 표현

최대 1 분 소요

ggplot 그래프를 그리기 위한 코드는 그래프 틀을 정해주는 ggplot 함수와 그래프 형태를 정해주는 함수가 추가로 붙게 되며, 레이어 추가방식 + 를 통해서 계속 지정이 가능하다.

R 정규분포 Visualization 표현

6 분 소요

다양한 평균,분산에 따른 정규분포 비교 > m = 0 > std = 1 > x <- seq((m-5*std),(m+5*std), length=101 ) # Y <- (1/sqrt(2*pi))*exp(-X^2/2) 정규분포 함수를 직접 활용해도 됨 >...

R 데이터 결합함수(cbind, rbind, merge)

2 분 소요

분석시 데이터의 프레임을 결합하는 경우가 꽤 발생한다. R은 이 기능을 충분히 제공하고 있으며 이 함수에 대해서 정리를 한다.

R apply, lapply, sapply, tapply, by 함수 정리

7 분 소요

apply 계열 함수는 array, data frame, vector 등 에 대해 함수를 적용하는 경우에 편리하게 사용하는 함수 이다. 통상 각데이터 연산을 할때 for문을 사용하는 것 보다 빠르게 연산을 한다.

통계R DataFrame

3 분 소요

많이 활용되는 DataFrame의 조작 방법을 알아본다.

맨 위로 이동 ↑

txtMining

텍스트마이닝 토픽모델, LDA(Latent Dirichlet Allocation)

2 분 소요

토픽모델이란 문서와 단어로 구성된 행렬(Document Term Matrix)를 기반으로 문서에 잠재된 토픽의 등장확률을 추정하는 기법으로 분석결과를 직관적이고 정교하게 보여주게 된다. 즉 토픽과 단어의 확률 분포를 바탕으로 새로운 문서를 생성하기 때문에 생성모델 이라고도 한다. ...

감성분석 - 규칙기반

3 분 소요

감성분석 이란? 문서의 감성/의견/기분 등을 파악하기 위한 기법으로, 편향없는 기계적인 분석 분석에는 두가지 방법이 있는데, 사람이 작성한 규칙 기반 알고리즘을 사용 : 특정 단어와 감성 점수의 쌍을 담은 사전(lexicon) 기반이며, VADER 알고...

텍스트마이닝 이론

1 분 소요

개념 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리(Natural Language Processing)방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법

맨 위로 이동 ↑

aws

Amazon Kinesis

1 분 소요

AWS에서 데이터를 처리한는 방법

EMR 개요

최대 1 분 소요

EMR(Elastic MapReduce) Managed Hadoop Spark, Hbase, Hive 등도 포함 내부적으로 EC2 인스턴스를 활용 다른 AWS 서비스들과 통합가능(S3)

S3 Select

최대 1 분 소요

AWS 활용한 데이터 분석 처리 간단한 쿼리 등을 EMR로 수행하기에는 비효율적이다. 따라서 좀 간단한 S3 Select 또는 Athena 등의 서비스를 활용한다. S3 데이터에 직접 SQL 쿼리를 실행 가능 쿼리 실행시 스캔한 데이터 용량에 대해서만 비용을 지불하...

Amazone S3 소개 및 실습

최대 1 분 소요

Amazon S3 Amazone Simple Storage Service 2006년에 출시된 최초의 AWS 서비스 웹 서비스 인터페이스를 통해 언제 어디서나 원하는 데이터 접근 가능

Hadoop MapReduce 소개 및 실습

최대 1 분 소요

MapReduce 설계 특성 분산 컴퓨팅에 적합한 분산 프로그래밍 모델 Map과 Reduce함수를 합친말 Map은 분산되어 있는 데이터를 연관성있는 데이터들로 분류하는 작업 Reduce 원하는 데이터를 추출하는 작업 Data Locality를 최대한 활용 F...

Hadoop HDFS 소개 및 실습

최대 1 분 소요

HDFS의 설계 대용량 데이터 저장 : 하나의 파일이 terabyte, petabyte이상의 사이즈로 저장 장애복구 : 장애를 신속하게 감지하고 대처할 수 있도록 설계 데이터의 무결성 : 한번 저장된 데이터를 수정 할 수 없고 읽기만 가능하게 해서 데이터 무결정을 유지

Hadoop 실습

최대 1 분 소요

실습환경 여러 하둡을 패키지로 묶어놓은 것 : HDP(Hortonworks Sandbox) Virtural Box

Hadoop 소개

2 분 소요

Hadoop 소개 하둡은 빅데이터를 분산,저장,처리 할 수 있는 자바기반의 오픈소스 프레임워크 기존의 OLTP(실시간 처리를 위한 데이터 베이스)용 데이터베이스에서 발생하는 문제를 해결 3V (Volumn, Velocity, Variety)의 문제 큰데이터를 저렴한...

맨 위로 이동 ↑

basicPy

Python 객체지향

3 분 소요

객체지향 프로그래밍 (OOP : Object Oriented Programming) 프로그램을 명령어의 나열로 보는 시각에서 벗어나 여러 개의 독립된 단위인 “객체”들의 모임으로 파악하는 것으로 클래스, 속성, 메서드로 구성을 이루고 있다. 객체지향은 캡슐화(Encapsu...

맨 위로 이동 ↑

analysisBasic

통계 심슨의역설(Simpson’s Paradox)

2 분 소요

개념 심슨의 역설은 데이터의 상세 그룹에서 나타나는 평균, 추세 등과 이를 전체 그룹화 시켜서 평균, 추세 등을 비교 해보면 서로 상반되거나 다른 결론에 이룰 수 있다는 역설이다. 좀 더 간단하게 표현해 보자면

통계 자료의 스케일링

1 분 소요

데이터 분석시 많이 발생하는 것이 단위의 불일치 이다. 이에 대한 해결로는 정규화(Normalization)과 표준화(Standardization)이 있다.이 스케일링 방법은 단위가 다를 때 대상 데이터를 같은 기준으로 보도록 한다.

통계자료의 종류

최대 1 분 소요

통계의 자료는 측정도구 등에 따라 달라지고 그 분류에 따라 처리 방식이 달라 진다.

맨 위로 이동 ↑

association

연관성분석 이론

2 분 소요

연관성분석은 장바구니분석(Market Basket Analysis) 또는 서열분석(Sequence Analysis) 이라고도 한다 기업의 데이터에서 상품구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견 할 목적으로 사용된다. 주요 응용은 Market basket anal...

맨 위로 이동 ↑

decisiontree

의사결정나무 이론

3 분 소요

의사결정 나무는 간단하게 말해 if~else와 같이 특정 조건을 기준으로 O/X로 나누어 분류/회귀를 진행하는 tree 구조의 분류/회귀 데이터마이닝 기법이다.

맨 위로 이동 ↑

casebased

사례기반추론 이론

2 분 소요

사례기반추론(Case-Based Reasoning, CBR)개념 과거의 사례들의 결과를 바탕으로 새로운 사례 결과를 예측하는 방법 굉장히 간단하지만, 유용성이 매우크다. 과거 사례들을 저장해 둔 사례 기반으로부터 해결하고자 하는 새로운 사례와 가장 유사한 사례를 검색한...

맨 위로 이동 ↑

cloudbasic

클라우드 컴퓨팅 개념

1 분 소요

클라우드 컴퓨팅은 현재 가장 Hot 기술로, 기업의 사업본질의 집중과 효율성 극대화를 위해 도입

맨 위로 이동 ↑

electron

맨 위로 이동 ↑

mushineLearn

최근접 이웃법(Nearest Neighbor)

최대 1 분 소요

개요 비슷한 그룹끼리 묶어내는 방법으로, 새로운 데이터가 들어 왔을때 가장 가까이 있는것이 무엇니가를 정해주는 알고리즘이라 할 수 있다. 분류나 회귀에 사용되는 비모수 방식이다.

기계학습 개요

1 분 소요

개요 데이터를 통해 기계가 스스로 학습하게 하는 방법을 의미한다. 일반 프로그램은 규칙을 사람이 직접 입력하지만, 머신러닝은 컴퓨터가 직접 규칙을 스스로 찾아서 하는 방법을 의미한다.

맨 위로 이동 ↑

Clustering

군집분석 이론

3 분 소요

대상을 분류 함에 있어 여러 질적변수로 분류 하는 것은 쉽지만, 양적변수로 분류 하는 것은 쉽지 않다. 이러한 상황에서 자유롭게 이용되는 기법이 군집분석이라 할 수 있다.

군집분석 예제 - 1

2 분 소요

K-means Clustering Method 방법을 활용한 군집 분석 사례 (간단분석)

맨 위로 이동 ↑

aws_error

맨 위로 이동 ↑

thesisStat

논문작성이론

1 분 소요

논문의 종류 Emprical Study 실증자료를 분석해서 결론을 도출함 대표적 논문집 : 경영학저널, 품질경영학회지, MIS Quality, IEEE 행태논문 (Behavioral Article) 사...

맨 위로 이동 ↑

statRelation

관계분석

최대 1 분 소요

관계분석은 그룹간의 차이를 검정하는 차이검정과 변수와 변수간 관계가 있는지 없는지를 검정하는 관계검정으로 나눠진다.

맨 위로 이동 ↑

NeuralNetwork

맨 위로 이동 ↑

artificialintelligence

맨 위로 이동 ↑

deeplearning

맨 위로 이동 ↑

etc_error

맨 위로 이동 ↑