1. 과적합(Overfitting)
- 학습 데이터가 너무 많았을 때 일반화 성능이 떨어짐
- 너무 특정 자세하게 모델링 되기 때문에 기존 데이터와 조금만 달라도 잘못 판단함
2. 머신러닝 기초수학
1) 선형대수학
- 대수학
2) 해석학
- 미적분학, 벡터 미적분학, 미분방정식
3) 확률과 통계
- 통계학, 확률론
1) Log
- 어떤 수가 있을 때 값이 증가할 때 작을 때에는 빠르게 증가하지만 값이 커지면 커질수록 조금씩 증가함
- 자연로그: 확률분포를 가장 자연스럽게 표현할 수 있는 로그값
2) 선형대수
- 공간, 기저, 서드 공간, 특징 벡터, SVD
- 기저: 도형을 무한대의 값이 아닌 두개의 축으로 표현하는 것( x, y )
- 공간의 특징들
3. 통계학
- 상관 분석: 변수간의 관계의 정도
- 회귀 분석: 독립 변수를 가지고 얼마나 의미 있게 종속변수를 예측할 수 있는지를 판별
4. 확률론
데이터를 뿌려봄 => 의미를 찾음 => 또 다시 다르게 뿌려봄 => 계속 가정하면서 반복하면서 데이터를 분석함
1) 빈도론자
- 데이터를 보면서 반복하면서 데이터를 분석함
2) 베이지안
- 초기 예상되는 확률을 지정하고 맞는 지 확인하면서 진행
5. PCA
- 벡터에서 주가 되는 특징 벡터를 추출
6. 예측 문제
- 회귀분석
- N차원으로 데이터를 선형적으로 나눔
7. kNN
- 비선형을 구현할 수 있음
- k를 입력으로 주면 중앙에서 k개를 보고 데이터를 나누어 감
- k를 입력으로 줘야하기 때문에 적절한 값이 아닌 경우 제대로 나오지 않음
8. SVN
- 선형적으로 나누지만 Margin을 줘서 그 안에 포함된 것을 한쪽에 줬을 때 에러율이 가장 낮은 값을 Margin으로 줌
9. Decision Tree
- 조건트리를 만들어가면서 처리
- 신속한 의사 결정이 됨으로 좋은 모델이 됨
10. 로지스틱 회귀
- 로지스틱 곡선: 실제로 일어나는 확률에 대해 범주형 데이터를 가장 잘 표현한 곡선
11. 군집화
1) K-means
- 군집의 갯수를 정해주고 군집의 중심을 찾고 군집을 정하고 다시 새로운 군집의 중심을 정하고 군집을 정하는 것을 고정될 때까지 반복
- 데이터를 손으로 직접 그어보면서 나눌 수 있으면 사용 가능하지만 그렇지 않다면 사용하기 힘들다
2) DBSCAN
- 밀도가 MinPts이상이면 Core, 미만이면 Noise로 정의
- 인접한 데이터들을 반영하는 알고리즘
3) Hierachical
- 2개씩 쌍으로 묶어가면서 계층을 만들어가면서 데이터를 군집화함
12. 강화학습
- 주어진 문제만 지도를 받고 해결방법은 시행착오를 통해 스스로 찾아냄
- Markov process
13. Deep Learning
- CNN, RNN
- ReLU
14. 최초의 인공신경망
1) ANN
- if, else
2) 단층 퍼셉트론
-
15. CNN
- 압축하면서 작은 부분 큰 부분을 모두 추출하면서 학습
- 이미지에서 특징을 추출해서 학습시키는 방법
16. RNN
- 앞뒤의 단어간의 관계가 중요
'데이터 분석가 역량' 카테고리의 다른 글
Day 21 ] Project2 유사도 분석 (0) | 2019.05.29 |
---|---|
Day 20] 내 파일로 분석해보기 (0) | 2019.05.29 |
Day 18 ] 정보검색 - Vector 공간 (0) | 2019.05.27 |
Day 17 ] TF-IDF (0) | 2019.05.24 |
day 17 ] Document, Lexicon, Posting 구조 (0) | 2019.05.24 |