텍스트 마이닝

텍스트마이닝 토픽모델, LDA(Latent Dirichlet Allocation)

2 분 소요

토픽모델이란 문서와 단어로 구성된 행렬(Document Term Matrix)를 기반으로 문서에 잠재된 토픽의 등장확률을 추정하는 기법으로 분석결과를 직관적이고 정교하게 보여주게 된다. 즉 토픽과 단어의 확률 분포를 바탕으로 새로운 문서를 생성하기 때문에 생성모델 이라고도 한다. ...

감성분석 - 규칙기반

3 분 소요

감성분석 이란? 문서의 감성/의견/기분 등을 파악하기 위한 기법으로, 편향없는 기계적인 분석 분석에는 두가지 방법이 있는데, 사람이 작성한 규칙 기반 알고리즘을 사용 : 특정 단어와 감성 점수의 쌍을 담은 사전(lexicon) 기반이며, VADER 알고...

텍스트마이닝 이론

1 분 소요

개념 인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리(Natural Language Processing)방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법