1. 자연언어
1) 자연언어란?
- 특정 인종, 집단에 의해 자연적으로 발생한 언어
- 인공언어에 대응되는 개념

2. 자연어 처리
1) 자연언어처리란
- 컴퓨터를 통하여 인간의 언어를 처리하고 이용하려는 분야
- 인간의 언어를 정보처리에 적용 => 빠르고 편리한 정보를 획득

3. 형태론적 다양성
1) 첨가어
- 한국어, 일본어, 터키어 등
- 다수의 형태소가 결합되어 어절 형성
- 하나의 단어가 여러가지 형태소로 조합이 됨(하다 + 수 + ... => 할 수 있다)

2) 굴절어
- 라틴어, 영어, 불어
- 어간이 변함(run, ran, run)
- 하나의 형태소가 여러가지로 변함(띄어쓰기로 구분하면 하나의 단어가 생성됨)

3) 스와히리어
- 수를 위한 형태서가 문두에 붙음
- 단수, 복수에 앞이 바뀜(사람: m+tu(단수), wa+tu(복수)

4. 통사적 다양성
1) postfix
- 동사가 뒤에 붙음

2) infix
- 동사가 중간에 위치

3) prefix
- 동사가 앞에 위치

5. 자연어 분석 단계
- 자연언어 문장 => 형태소 분석 => 구문 분석 => 의미 분석 => 활용 분석

6. 어절, 단어, 형태소
1) 어절
- 양쪽에 공백을 갖는 띄어쓰기 단위의 문자열

2) 단어 / 형태소
- 단일 품사를 갖는 단위 / 사전에 등록되어 있는 색인어의 집합

3) 예시
- 나는 책을 읽었다. => 3어절 / 나,는 책,을 읽,었,다 => 이러한 정보를 쿠키라고 명칭
- 파릇파릇한 싹이 나는 계절이다.
- 하늘을 나는 새를 보아라.
=> 나는 이라는 단어의 의미가 모두 다르다.

4) 사용 툴
- KoNLpy를 사용해서 형태소를 분석할 것임
- 카이(다음에서 만듦)도 성능은 좋으나 리눅스 os에서 사용할 수 있다.(윈도우 안됨)

7. 형태소 분석
- 하늘을 나는 새 => 하늘 + 을 + (나 + 는 or 날 + 는) => 새

1. 자연언어
1) 자연언어란?
- 특정 인종, 집단에 의해 자연적으로 발생한 언어
- 인공언어에 대응되는 개념

2. 자연어 처리
1) 자연언어처리란
- 컴퓨터를 통하여 인간의 언어를 처리하고 이용하려는 분야
- 인간의 언어를 정보처리에 적용 => 빠르고 편리한 정보를 획득

3. 형태론적 다양성
1) 첨가어
- 한국어, 일본어, 터키어 등
- 다수의 형태소가 결합되어 어절 형성
- 하나의 단어가 여러가지 형태소로 조합이 됨(하다 + 수 + ... => 할 수 있다)

2) 굴절어
- 라틴어, 영어, 불어
- 어간이 변함(run, ran, run)
- 하나의 형태소가 여러가지로 변함(띄어쓰기로 구분하면 하나의 단어가 생성됨)

3) 스와히리어
- 수를 위한 형태서가 문두에 붙음
- 단수, 복수에 앞이 바뀜(사람: m+tu(단수), wa+tu(복수)

4. 통사적 다양성
1) postfix
- 동사가 뒤에 붙음

2) infix
- 동사가 중간에 위치

3) prefix
- 동사가 앞에 위치

5. 자연어 분석 단계
- 자연언어 문장 => 형태소 분석 => 구문 분석 => 의미 분석 => 활용 분석

6. 어절, 단어, 형태소
1) 어절
- 양쪽에 공백을 갖는 띄어쓰기 단위의 문자열

2) 단어 / 형태소
- 단일 품사를 갖는 단위 / 사전에 등록되어 있는 색인어의 집합

3) 예시
- 나는 책을 읽었다. => 3어절 / 나,는 책,을 읽,었,다 => 이러한 정보를 쿠키라고 명칭
- 파릇파릇한 싹이 나는 계절이다.
- 하늘을 나는 새를 보아라.
=> 나는 이라는 단어의 의미가 모두 다르다.

4) 사용 툴
- KoNLpy를 사용해서 형태소를 분석할 것임
- 카이(다음에서 만듦)도 성능은 좋으나 리눅스 os에서 사용할 수 있다.(윈도우 안됨)

7. 형태소 분석
- 하늘을 나는 새 => 하늘 + 을 + (나 + 는 or 날 + 는) => 새
- 중이성 때문에 형태소에 대한 완벽한 분석은 어려움

8. 구문 분석기
- 형태소 단위로 구분된 것들에 대해 각 단어의 구분을 계층식으로 분석함

9. 문법
1) 룰의 예시
S => NP VP
NP => ART N
NP => N
VP => V NP

2) Context Free Grammar

10. 여러가지 방법으로 해석되기도 함
- i saw the man on the hill with the telescope
- 여러가지로 해석 됨

11. 의미 분석
1) ambiguity(모호함)
- 문법은 맞으나 의미가 이상한 경우
- 돌이 걸어간다
- 바람이 달린다
- 비행기가 사과를 먹는다.

12. 화용 분석
- 실세계 지식과 상식의 표현이 요구됨
- 이게 완성된다면 실제로 기계와 대화가 가능함
- 하지만 힘들다... 정보가 너무 많이 필요하기 때문에

13. 처리 과정
- sentence splitting => tokenizing => part-of-speech(pos) tagging => named entity recognition => parsing

14. 정리
1) 인공지능
- 기계가 인간의 언어를 이해하고 추론할 수 있게 하는 것

2) 기계학습
- 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야
- 기계학습을 통해서 수신한 이메일이 스팸인지 아닌지 확인할 수 있다.


'데이터 분석가 역량' 카테고리의 다른 글

day 4] BeautifulSoup  (0) 2019.05.03
day 4] DOM  (0) 2019.05.02
day 3 ] Requests  (0) 2019.05.02
Day 2] Reqeusts  (0) 2019.04.30
Day 2] Crawling  (0) 2019.04.30

+ Recent posts