텍스트마이닝 이론 | Data Study

텍스트마이닝 이론

2022-03-25 1 분 소요

개념

인간의 언어로 이루어진 비정형 텍스트 데이터들을 자연어 처리(Natural Language Processing)방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법

※ [참고] 비정형 데이터분석 : 미리 정의된 모델(구조)을 가지고 있지 않는 데이터로 불규칙 정도에 따라 반정형(html 문서 등) 데이터로 구분된다. 주요분야로는 텍스트마이닝, 웹마이닝, 오피니언마이닝, 소셜마이닝 등이 있다. (음성인식, 화상인식 등은 딥러닝)

텍스트 마이닝 관련 사용기법

정보 검색 기법(information retrieval)
자연어 처리(natural language processing) 기법
-> 의사소통언어처리기법, 구어처리기법
특징 추출(feature selection) 기법
텍스트 범주화(text categorization) 기법
군집화(Clustering) 기법
연결분석(text link analysis) 등의 기법

텍스트 마이닝 방법

Eliminate commonly used words (불필요한 단어 제거)
Replace words with their stems or roots(stemming algorithms, 단어를 어근으로 대체)
Consider synonyms and phrases ( 동의어 및 구문 고려 )
Calculate the weights of the remaining terms ( 남은 단어에 대핸 가중치 계산 )

텍스트 마이닝 과정

※ 전처리 : 전과정의 70~80% 정도 차지, 비정형데이터를 정형화된 표현 양식으로 만듦

텍스트 마이닝 처리과정

데이터의 수집
- 데이터 크롤링 등
데이터 전처리
- Cleansing (remove stopword/ punctuation/ whitespace/ …)
- Corpus 생성
- tm_map() 함수의 적용
자연어 처리
- Tockeninzation , Normaization
- Stemming
- 한글처리등
DTM, TDM 구축
다양한 분석
- 빈도분석 (토픽 분석)
- 군집분석 (유사 단어들 또는 문서들간의 분석)
- 연관분석 (연관 단어 추출, 단어 네트워크 분석)
- 감성분석 (단어 분석)
- 분류 (classification)
- 주요 키워드의 추출
- 토픽 트렌드 분석, 이상치 분석 (normality)
시각화
- 워드 클라우드, 연관성 네트웍 그래프 등

기타 분석 기법

웹마이닝
- 인터넷을 통해 웹 서비스를 이용하면서 웹의 패턴을 발견하는 것
- 데이터, 정보, 지식을 마이닝하고 추출하는 웹 콘텐츠(Web content)마이닝 과 웹사이트의 노드와 연결구조를 분석하는 웹 사용(Web usage) 마이닝 , 그 외 웹 구조(Web structure) 마이닝 등이 있다.
- 주로 응용 분야는 Cross marketing, 감성캠페인 평가, Target 광고, 소비자 행동 예측 등
오피니언 마이닝
- 어떤 사안이나 인물, 이슈, 이벤트 등과 관련 원천데이터에서 평가,태도,감정 등과 같은 주관적인 정보를 식별 추출 하는것
- 주로 평판, 정서분석을 말하며 긍정,부정,중립 등 텍스트의 특성을 분류하게 된다.
- 주로 응용 분야는 상품평 데이터에 순위 결정, 영화 후기에 대한 요약 및 평가, 오피니언들을 조기감지 등에 응용된다.

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

electron 에서 sqlite3설치후 Cannot find module node_sqlite3.node 오류 발생시 해결 방법

2022-08-26 최대 1 분 소요

Electron Vue 환경에서 sqlite3 설치시 다음과 같은 에러가 발생하는 경우가 있다.

텍스트마이닝 토픽모델, LDA(Latent Dirichlet Allocation)

2022-08-20 2 분 소요

토픽모델이란 문서와 단어로 구성된 행렬(Document Term Matrix)를 기반으로 문서에 잠재된 토픽의 등장확률을 추정하는 기법으로 분석결과를 직관적이고 정교하게 보여주게 된다. 즉 토픽과 단어의 확률 분포를 바탕으로 새로운 문서를 생성하기 때문에 생성모델 이라고도 한다. ...

[d3.js] d3.js 오류

2022-08-20 최대 1 분 소요

d3 버전차이에 의한 오류

[hive.connect] thrift.transport.TTransport.TTransportException 오류 발생

2022-08-15 최대 1 분 소요

파이썬으로 hive.connect 오류 발생시 포트나 호스트 IP를 체크 해야 합니다. port 10000 번을 사용하기 때문에 10000번 포트가 열려 있는지 확인하세요.