1. NLTK

- NLTK를 사용하는 이유는 띄어쓰기만으로 구분하여 처리하는 경우 제대로 형태소 분석이 되지 않기 때문에 이러한 형태소 분석을 제대로 해주는 패키지를 사용한다.

 

1) tokenize, splitlines

- tokenize: 문장을 나눔(문장을 마치는 문자를 인식하여)

- splitlines: 줄바꿈으로 나눔

 

2) word_tokenize, split

- word_tokenize: 어절을 나눔(어절을 마치는 문자를 인식하여)

- split: 띄어쓰기로 나눔

 

3) TweetTokenizer().tokenize

- 서양권에서 자주 사용되는 감정표시를 하나의 단어로 분류

 

 

4) word_tokenize의 preserve_line 옵션

- 구분자로 사용되는 .이 앞에 붙었는지 뒤에 붙었는지 알 수 있게하려면 True로 필요없다면 False를 둔다.

 

 

2. 단어의 빈도수

1) vocab

- collections에서 제공되기도 하지만 nltk의 Text에서 vocab을 통해 얻을 수 있다.

2) plot

- 그래프로 보기

 

3) 내가 가지고 있는 데이터로 해보기

- 모든 데이터를 하나의 문자열로 합쳐서 이것을 copus로 사용

4) 데이터 분석

- 특정 단어가 몇번 반복되었는지 확인

- 특정 단어가 어느 문단에서 나왔는 지

- 어디에서 매칭되었는지(잘모름 다시 알아보기)

- 어떤 글자들이 주제가 되는지

'데이터 분석가 역량' 카테고리의 다른 글

day 11 ] N-Gram  (0) 2019.05.15
day 11 ] 형태소 분석  (0) 2019.05.15
day 10 ] 형태소 분석 개론  (0) 2019.05.14
day 9 ] 데이터 학습 개론  (0) 2019.05.13
day 7 ] selenium  (0) 2019.05.09

+ Recent posts