통계 수량형 자료의 표현
자료의 표현 및 Data Visualization
자료의 표현 및 Data Visualization
많이 활용되는 DataFrame의 조작 방법을 알아본다.
Vector, Matrix, Dataframe, Array, List 의 연산과 데이터 접근법 등을 알아본다.
R의 변수 및 데이터구조
데이터 처리를 위한 라이브러리
곱셈정리 개요
통계의 자료는 측정도구 등에 따라 달라지고 그 분류에 따라 처리 방식이 달라 진다.
덧셈정리 개요
토큰화
개념 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리(Natural Language Processing)방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법
텍스트 마이닝 분석 이후 연관분석 까지 실시해서 분석 해본다.
국문에 대해 간단한 텍스트 마이닝을 통해 워드 클라우드를 만드는 예제
영문에 대해 간단한 텍스트 마이닝을 통해 워드 클라우드를 만드는 예제
사례기반추론(Case-Based Reasoning, CBR)개념 과거의 사례들의 결과를 바탕으로 새로운 사례 결과를 예측하는 방법 굉장히 간단하지만, 유용성이 매우크다. 과거 사례들을 저장해 둔 사례 기반으로부터 해결하고자 하는 새로운 사례와 가장 유사한 사례를 검색한...
대상을 분류 함에 있어 여러 질적변수로 분류 하는 것은 쉽지만, 양적변수로 분류 하는 것은 쉽지 않다. 이러한 상황에서 자유롭게 이용되는 기법이 군집분석이라 할 수 있다.
K-means Clustering Method 방법을 활용한 군집 분석 사례 (간단분석)
산점도에 대한 시각화 표현을 해본다.
ggplot 그래프를 그리기 위한 코드는 그래프 틀을 정해주는 ggplot 함수와 그래프 형태를 정해주는 함수가 추가로 붙게 되며, 레이어 추가방식 + 를 통해서 계속 지정이 가능하다.
다양한 평균,분산에 따른 정규분포 비교 > m = 0 > std = 1 > x <- seq((m-5*std),(m+5*std), length=101 ) # Y <- (1/sqrt(2*pi))*exp(-X^2/2) 정규분포 함수를 직접 활용해도 됨 >...
igraph 네트워크 객체로 표현하면 노드속성과 엣지속성을 표현하는데 장점이 많다.
네트워크 표현형식은 아래와 같이 2가지로 표현이 가능하다.
분석시 데이터의 프레임을 결합하는 경우가 꽤 발생한다. R은 이 기능을 충분히 제공하고 있으며 이 함수에 대해서 정리를 한다.
apply 계열 함수는 array, data frame, vector 등 에 대해 함수를 적용하는 경우에 편리하게 사용하는 함수 이다. 통상 각데이터 연산을 할때 for문을 사용하는 것 보다 빠르게 연산을 한다.
자료의 표현 및 Data Visualization
분석시 데이터의 프레임을 결합하는 경우가 꽤 발생한다. R은 이 기능을 충분히 제공하고 있으며 이 함수에 대해서 정리를 한다.
apply 계열 함수는 array, data frame, vector 등 에 대해 함수를 적용하는 경우에 편리하게 사용하는 함수 이다. 통상 각데이터 연산을 할때 for문을 사용하는 것 보다 빠르게 연산을 한다.
Vector, Matrix, Dataframe, Array, List 의 연산과 데이터 접근법 등을 알아본다.
R의 변수 및 데이터구조
통계의 자료는 측정도구 등에 따라 달라지고 그 분류에 따라 처리 방식이 달라 진다.
토큰화
개념 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리(Natural Language Processing)방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법
텍스트 마이닝 분석 이후 연관분석 까지 실시해서 분석 해본다.
국문에 대해 간단한 텍스트 마이닝을 통해 워드 클라우드를 만드는 예제
영문에 대해 간단한 텍스트 마이닝을 통해 워드 클라우드를 만드는 예제
객체지향 프로그래밍 (OOP : Object Oriented Programming) 프로그램을 명령어의 나열로 보는 시각에서 벗어나 여러 개의 독립된 단위인 “객체”들의 모임으로 파악하는 것으로 클래스, 속성, 메서드로 구성을 이루고 있다. 객체지향은 캡슐화(Encapsu...
선택적흐름 과 반복적 흐름
식별자
기본자료형 (정수,실수,복소수,논리형,문자열)
자료의 표현 및 Data Visualization
많이 활용되는 DataFrame의 조작 방법을 알아본다.
Vector, Matrix, Dataframe, Array, List 의 연산과 데이터 접근법 등을 알아본다.
R의 변수 및 데이터구조
MapReduce 설계 특성 분산 컴퓨팅에 적합한 분산 프로그래밍 모델 Map과 Reduce함수를 합친말 Map은 분산되어 있는 데이터를 연관성있는 데이터들로 분류하는 작업 Reduce 원하는 데이터를 추출하는 작업 Data Locality를 최대한 활용 F...
HDFS의 설계 대용량 데이터 저장 : 하나의 파일이 terabyte, petabyte이상의 사이즈로 저장 장애복구 : 장애를 신속하게 감지하고 대처할 수 있도록 설계 데이터의 무결성 : 한번 저장된 데이터를 수정 할 수 없고 읽기만 가능하게 해서 데이터 무결정을 유지
실습환경 여러 하둡을 패키지로 묶어놓은 것 : HDP(Hortonworks Sandbox) Virtural Box
Hadoop 소개 하둡은 빅데이터를 분산,저장,처리 할 수 있는 자바기반의 오픈소스 프레임워크 기존의 OLTP(실시간 처리를 위한 데이터 베이스)용 데이터베이스에서 발생하는 문제를 해결 3V (Volumn, Velocity, Variety)의 문제 큰데이터를 저렴한...
분석개요
연관성 분석에 사용되는 데이터 유형은 idi형태가 아닌 itl 형태의 데이타가 사용된다.
연관성분석은 장바구니분석(Market Basket Analysis) 또는 서열분석(Sequence Analysis) 이라고도 한다 기업의 데이터에서 상품구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견 할 목적으로 사용된다. 주요 응용은 Market basket anal...
분석개요
연관성 분석에 사용되는 데이터 유형은 idi형태가 아닌 itl 형태의 데이타가 사용된다.
연관성분석은 장바구니분석(Market Basket Analysis) 또는 서열분석(Sequence Analysis) 이라고도 한다 기업의 데이터에서 상품구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견 할 목적으로 사용된다. 주요 응용은 Market basket anal...
분석개요
연관성 분석에 사용되는 데이터 유형은 idi형태가 아닌 itl 형태의 데이타가 사용된다.
연관성분석은 장바구니분석(Market Basket Analysis) 또는 서열분석(Sequence Analysis) 이라고도 한다 기업의 데이터에서 상품구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견 할 목적으로 사용된다. 주요 응용은 Market basket anal...
의사결정 나무는 간단하게 말해 if~else와 같이 특정 조건을 기준으로 O/X로 나누어 분류/회귀를 진행하는 tree 구조의 분류/회귀 데이터마이닝 기법이다.
1. 의사결정나무 분석절차
A. 데이터 준비
의사결정 나무는 간단하게 말해 if~else와 같이 특정 조건을 기준으로 O/X로 나누어 분류/회귀를 진행하는 tree 구조의 분류/회귀 데이터마이닝 기법이다.
1. 의사결정나무 분석절차
A. 데이터 준비
빅데이터를 위한 AWS 서비스
클라우드 컴퓨팅 분류
클라우드 컴퓨팅은 현재 가장 Hot 기술로, 기업의 사업본질의 집중과 효율성 극대화를 위해 도입
Electron Vue 환경에서 sqlite3 설치시 다음과 같은 에러가 발생하는 경우가 있다.
Electron Vue 환경에서 fs.readFileSync, readFile 사용하는 경우 보안문제로 인하여 다음과 같은 에러가 발생한다.
ApexCharts 이란 ? Chart를 그리는 라이브러리로 Vue, React 등 다양한 환경에 사용 가능한 라이브러임
조건부 확률
확률의 기본개념
분석시 데이터의 프레임을 결합하는 경우가 꽤 발생한다. R은 이 기능을 충분히 제공하고 있으며 이 함수에 대해서 정리를 한다.
apply 계열 함수는 array, data frame, vector 등 에 대해 함수를 적용하는 경우에 편리하게 사용하는 함수 이다. 통상 각데이터 연산을 할때 for문을 사용하는 것 보다 빠르게 연산을 한다.
개념 심슨의 역설은 데이터의 상세 그룹에서 나타나는 평균, 추세 등과 이를 전체 그룹화 시켜서 평균, 추세 등을 비교 해보면 서로 상반되거나 다른 결론에 이룰 수 있다는 역설이다. 좀 더 간단하게 표현해 보자면
chebishev’s Rule 체비셔프 부등식 : $P(| x- \mu | < k \sigma) = P[\mu -k \sigma < x < \mu +k \sigma] \geq 1 - \frac{1}{k^2}$ chebishev’s Rule에 의하면, ...
개념 심슨의 역설은 데이터의 상세 그룹에서 나타나는 평균, 추세 등과 이를 전체 그룹화 시켜서 평균, 추세 등을 비교 해보면 서로 상반되거나 다른 결론에 이룰 수 있다는 역설이다. 좀 더 간단하게 표현해 보자면
chebishev’s Rule 체비셔프 부등식 : $P(| x- \mu | < k \sigma) = P[\mu -k \sigma < x < \mu +k \sigma] \geq 1 - \frac{1}{k^2}$ chebishev’s Rule에 의하면, ...
간단한 예제를 R을 통하여 알아본다
간단한 예제를 R을 통하여 알아본다
igraph 네트워크 객체로 표현하면 노드속성과 엣지속성을 표현하는데 장점이 많다.
네트워크 표현형식은 아래와 같이 2가지로 표현이 가능하다.
ggplot 그래프를 그리기 위한 코드는 그래프 틀을 정해주는 ggplot 함수와 그래프 형태를 정해주는 함수가 추가로 붙게 되며, 레이어 추가방식 + 를 통해서 계속 지정이 가능하다.
다양한 평균,분산에 따른 정규분포 비교 > m = 0 > std = 1 > x <- seq((m-5*std),(m+5*std), length=101 ) # Y <- (1/sqrt(2*pi))*exp(-X^2/2) 정규분포 함수를 직접 활용해도 됨 >...
EMR(Elastic MapReduce) Managed Hadoop Spark, Hbase, Hive 등도 포함 내부적으로 EC2 인스턴스를 활용 다른 AWS 서비스들과 통합가능(S3)
EMR클러스터 생성
Electron Vue 환경에서 fs.readFileSync, readFile 사용하는 경우 보안문제로 인하여 다음과 같은 에러가 발생한다.
ApexCharts 이란 ? Chart를 그리는 라이브러리로 Vue, React 등 다양한 환경에 사용 가능한 라이브러임
Electron Vue 환경에서 fs.readFileSync, readFile 사용하는 경우 보안문제로 인하여 다음과 같은 에러가 발생한다.
ApexCharts 이란 ? Chart를 그리는 라이브러리로 Vue, React 등 다양한 환경에 사용 가능한 라이브러임
덧셈정리 개요
연관성 분석에 사용되는 데이터 유형은 idi형태가 아닌 itl 형태의 데이타가 사용된다.
기본자료형 (정수,실수,복소수,논리형,문자열)
식별자
선택적흐름 과 반복적 흐름
선택적흐름 과 반복적 흐름
객체지향 프로그래밍 (OOP : Object Oriented Programming) 프로그램을 명령어의 나열로 보는 시각에서 벗어나 여러 개의 독립된 단위인 “객체”들의 모임으로 파악하는 것으로 클래스, 속성, 메서드로 구성을 이루고 있다. 객체지향은 캡슐화(Encapsu...
곱셈정리 개요
통계 용어중 정확도(Accuracy)와 정밀도(Precision)에 대해서 알아보자
통계 용어중 정확도(Accuracy)와 정밀도(Precision)에 대해서 알아보자
통계의 자료의 요약 방법에 대해 알아본다.
통계의 자료의 요약 방법에 대해 알아본다.
통계의 자료의 요약 방법에 대해 알아본다.
데이터 처리를 위한 라이브러리
개요 데이터를 통해 기계가 스스로 학습하게 하는 방법을 의미한다. 일반 프로그램은 규칙을 사람이 직접 입력하지만, 머신러닝은 컴퓨터가 직접 규칙을 스스로 찾아서 하는 방법을 의미한다.
두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다
범주형 자료의 표현 방법
범주형 자료의 표현 방법
범주형 자료의 표현 방법
Numpy 라이브러리 (데이터처리용)
MatPlotLib 라이브러리 (데이터시각화)
SciPy 라이브러리 (데이터처리용)
Pandas 라이브러리 (데이터처리용)
베르누이 분포
추측 통계학을 연결하는 중간적인 개념으로 확률 변수가 발생한다.
추측 통계학을 연결하는 중간적인 개념으로 확률 변수가 발생한다.
데이터 분석시 많이 발생하는 것이 단위의 불일치 이다. 이에 대한 해결로는 정규화(Normalization)과 표준화(Standardization)이 있다.이 스케일링 방법은 단위가 다를 때 대상 데이터를 같은 기준으로 보도록 한다.
데이터 분석시 많이 발생하는 것이 단위의 불일치 이다. 이에 대한 해결로는 정규화(Normalization)과 표준화(Standardization)이 있다.이 스케일링 방법은 단위가 다를 때 대상 데이터를 같은 기준으로 보도록 한다.
결합확률분포
논문의 종류 Emprical Study 실증자료를 분석해서 결론을 도출함 대표적 논문집 : 경영학저널, 품질경영학회지, MIS Quality, IEEE 행태논문 (Behavioral Article) 사...
두 확률 변수의 연관성
정규분포(normal distribution)
정규분포(normal distribution)
균등 분포(Uniform probability distribution)
표본분포의 이해
A. 데이터 준비
K-means Clustering Method 방법을 활용한 군집 분석 사례 (간단분석)
K-means Clustering Method 방법을 활용한 군집 분석 사례 (간단분석)
대상을 분류 함에 있어 여러 질적변수로 분류 하는 것은 쉽지만, 양적변수로 분류 하는 것은 쉽지 않다. 이러한 상황에서 자유롭게 이용되는 기법이 군집분석이라 할 수 있다.
사례기반추론(Case-Based Reasoning, CBR)개념 과거의 사례들의 결과를 바탕으로 새로운 사례 결과를 예측하는 방법 굉장히 간단하지만, 유용성이 매우크다. 과거 사례들을 저장해 둔 사례 기반으로부터 해결하고자 하는 새로운 사례와 가장 유사한 사례를 검색한...
관계분석은 그룹간의 차이를 검정하는 차이검정과 변수와 변수간 관계가 있는지 없는지를 검정하는 관계검정으로 나눠진다.
산점도에 대한 시각화 표현을 해본다.
이해
이해
개요 비슷한 그룹끼리 묶어내는 방법으로, 새로운 데이터가 들어 왔을때 가장 가까이 있는것이 무엇니가를 정해주는 알고리즘이라 할 수 있다. 분류나 회귀에 사용되는 비모수 방식이다.
개요 비슷한 그룹끼리 묶어내는 방법으로, 새로운 데이터가 들어 왔을때 가장 가까이 있는것이 무엇니가를 정해주는 알고리즘이라 할 수 있다. 분류나 회귀에 사용되는 비모수 방식이다.
개요 비슷한 그룹끼리 묶어내는 방법으로, 새로운 데이터가 들어 왔을때 가장 가까이 있는것이 무엇니가를 정해주는 알고리즘이라 할 수 있다. 분류나 회귀에 사용되는 비모수 방식이다.
EC2 서비스 생성 실습
Amazon S3 Amazone Simple Storage Service 2006년에 출시된 최초의 AWS 서비스 웹 서비스 인터페이스를 통해 언제 어디서나 원하는 데이터 접근 가능
AWS 활용한 데이터 분석 처리 간단한 쿼리 등을 EMR로 수행하기에는 비효율적이다. 따라서 좀 간단한 S3 Select 또는 Athena 등의 서비스를 활용한다. S3 데이터에 직접 SQL 쿼리를 실행 가능 쿼리 실행시 스캔한 데이터 용량에 대해서만 비용을 지불하...
EMR클러스터 생성
AWS에서 데이터를 처리한는 방법
텍스트 문서를 컴퓨터가 인식할 수 있는 다양한 방법에 대해서 알아 보기로 함
텍스트 문서를 컴퓨터가 인식할 수 있는 다양한 방법에 대해서 알아 보기로 함
텍스트 문서를 컴퓨터가 인식할 수 있는 다양한 방법에 대해서 알아 보기로 함
감성분석 이란? 문서의 감성/의견/기분 등을 파악하기 위한 기법으로, 편향없는 기계적인 분석 분석에는 두가지 방법이 있는데, 사람이 작성한 규칙 기반 알고리즘을 사용 : 특정 단어와 감성 점수의 쌍을 담은 사전(lexicon) 기반이며, VADER 알고...
IMDB 영화 리뷰 데이터 ML 기반 감성분석( CountVectorizer 활용 )
독립변수(X변수) 만의 변수들만 활용 하여 군집과 분류 하게됨.
AWS EMR 생성시 이러한 오류 발생시에는 EC2 에서 인스턴스유형 과 네트워크 인터페이스를 확인 해야 한다.
파이썬으로 hive.connect 오류 발생시 포트나 호스트 IP를 체크 해야 합니다. port 10000 번을 사용하기 때문에 10000번 포트가 열려 있는지 확인하세요.
d3 버전차이에 의한 오류
토픽모델이란 문서와 단어로 구성된 행렬(Document Term Matrix)를 기반으로 문서에 잠재된 토픽의 등장확률을 추정하는 기법으로 분석결과를 직관적이고 정교하게 보여주게 된다. 즉 토픽과 단어의 확률 분포를 바탕으로 새로운 문서를 생성하기 때문에 생성모델 이라고도 한다. ...
토픽모델이란 문서와 단어로 구성된 행렬(Document Term Matrix)를 기반으로 문서에 잠재된 토픽의 등장확률을 추정하는 기법으로 분석결과를 직관적이고 정교하게 보여주게 된다. 즉 토픽과 단어의 확률 분포를 바탕으로 새로운 문서를 생성하기 때문에 생성모델 이라고도 한다. ...