1. 형태소 분석
- 입력된 문장을 형태소 단위로 분할하고 품사를 부착
1) 나는
- 나 + 는
- 날(다) + 는
- 나(다 + 는
2) 과학자들에게
- 과학자 + 들 + 에게
2. 구문 분석
- 주어, 목적어, 서술어와 같은 구문 단위를 찾음
- 관련쌍끼리 묶어서 Sentence로 만듦
3, 의미 분석
- 문장이 의미적으로 올바른 문장인지를 판단
- 각 단어들의 상관관계를 분석한다.
4. 담화 분석
- 대화 흐름상 어떤 의미를 가지는지를 찾음
- 여기까지는 힘들 것임
1. 형태소 사전
- 형태소 사전을 뒤져서 분석함 ( 이 사전은 제공되는 것으로 사용 )
2. KoNLPy, NLTK
1) KoNLPy
- 한국어 정보처리를 위한 파이썬 패키지
- 프리웨어
2) 설치방법
- jdk, jpype, konlpy 이 세가지가 필요하다
- JDK를 설치하고 Path를 설정한 후 아래와 같이 설치하면 끝
- pip install jpype1 를 통해 jpype1을 설치한다.
- pip install konlpy를 통해 KonlPy를 설치하려 했으나 gcc 어쩌고 오류가 발생
- 오류가 나서 찾아보니 아래의 macOS의 버전이 바뀜에 따라 stdlibc++가 없어지고, libc++가 생겨서 JPype1 모듈이 이런 버전 업을 따라가지 못하는 오류라고 한다. 아래의 플래그를 이용하면 해결할 수 있다.
export MACOSX_DEPLOYMENT_TARGET=10.10 CFLAGS='-stdlib=libc++' pip install konlpy
3) 테스트
4) KoNLPy란
- corpus (말뭉치)를 제공
- kobil, koloaw(헌법)을 제공
5) NLTK
- 자연어를 처리하는 데에 도움이 되는 패키지
- classification, tokenization, stemming, tagging, parsing, semantic reasoning
- 거의 대부분의 기능이 한국어, 일본어를 지원하지 않음...
- 직접 다운받고 사용해야함
- 다운로드 목록보기
import nltk
nltk.download()
'데이터 분석가 역량' 카테고리의 다른 글
day 11 ] 형태소 분석 (0) | 2019.05.15 |
---|---|
day 10 ] 형태소 분석 심화 (0) | 2019.05.14 |
day 9 ] 데이터 학습 개론 (0) | 2019.05.13 |
day 7 ] selenium (0) | 2019.05.09 |
day 6 ] parsing 익히기 (0) | 2019.05.08 |