1. 형태소 분석

- 입력된 문장을 형태소 단위로 분할하고 품사를 부착

1) 나는

- 나 + 는

- 날(다) + 는

- 나(다 + 는

 

2) 과학자들에게

- 과학자 + 들 + 에게

 

2. 구문 분석

- 주어, 목적어, 서술어와 같은 구문 단위를 찾음

- 관련쌍끼리 묶어서 Sentence로 만듦

 

3, 의미 분석

- 문장이 의미적으로 올바른 문장인지를 판단

- 각 단어들의 상관관계를 분석한다.

 

4. 담화 분석

- 대화 흐름상 어떤 의미를 가지는지를 찾음

- 여기까지는 힘들 것임

 

1. 형태소 사전

- 형태소 사전을 뒤져서 분석함 ( 이 사전은 제공되는 것으로 사용 )

 

 

2. KoNLPy, NLTK

1) KoNLPy

- 한국어 정보처리를 위한 파이썬 패키지 

- 프리웨어

 

2) 설치방법

- jdk, jpype, konlpy 이 세가지가 필요하다 

- JDK를 설치하고 Path를 설정한 후 아래와 같이 설치하면 끝

- pip install jpype1 를 통해 jpype1을 설치한다.

pip install konlpy를 통해 KonlPy를 설치하려 했으나 gcc 어쩌고 오류가 발생

- 오류가 나서 찾아보니 아래의 macOS의 버전이 바뀜에 따라 stdlibc++가 없어지고, libc++가 생겨서 JPype1 모듈이 이런 버전 업을 따라가지 못하는 오류라고 한다. 아래의 플래그를 이용하면 해결할 수 있다.

  export MACOSX_DEPLOYMENT_TARGET=10.10 CFLAGS='-stdlib=libc++' pip install konlpy

 

JDK PATH
jpype1 설치
konlpy 설치

 

 

3) 테스트

Jupyter Notebook에서 테스트한 결과

 

4) KoNLPy란

- corpus (말뭉치)를 제공

- kobil, koloaw(헌법)을 제공

5) NLTK

- 자연어를 처리하는 데에 도움이 되는 패키지

- classification, tokenization, stemming, tagging, parsing, semantic reasoning

- 거의 대부분의 기능이 한국어, 일본어를 지원하지 않음...

- 직접 다운받고 사용해야함

 

- 다운로드 목록보기

import nltk
nltk.download()

 

 

'데이터 분석가 역량' 카테고리의 다른 글

day 11 ] 형태소 분석  (0) 2019.05.15
day 10 ] 형태소 분석 심화  (0) 2019.05.14
day 9 ] 데이터 학습 개론  (0) 2019.05.13
day 7 ] selenium  (0) 2019.05.09
day 6 ] parsing 익히기  (0) 2019.05.08

+ Recent posts