1. 과적합(Overfitting)

- 학습 데이터가 너무 많았을 때 일반화 성능이 떨어짐

- 너무 특정 자세하게 모델링 되기 때문에 기존 데이터와 조금만 달라도 잘못 판단함

 

2. 머신러닝 기초수학

1) 선형대수학

- 대수학

 

2) 해석학

- 미적분학, 벡터 미적분학, 미분방정식

 

3) 확률과 통계

- 통계학, 확률론

 

 

1) Log

- 어떤 수가 있을 때 값이 증가할 때 작을 때에는 빠르게 증가하지만 값이 커지면 커질수록 조금씩 증가함

- 자연로그: 확률분포를 가장 자연스럽게 표현할 수 있는 로그값

 

2) 선형대수

- 공간, 기저, 서드 공간, 특징 벡터, SVD

- 기저: 도형을 무한대의 값이 아닌 두개의 축으로 표현하는 것( x, y )

- 공간의 특징들

 

 

3. 통계학

- 상관 분석: 변수간의 관계의 정도

- 회귀 분석: 독립 변수를 가지고 얼마나 의미 있게 종속변수를 예측할 수 있는지를 판별

 

4. 확률론

데이터를 뿌려봄 => 의미를 찾음 => 또 다시 다르게 뿌려봄 => 계속 가정하면서 반복하면서 데이터를 분석함

 

1) 빈도론자

- 데이터를 보면서 반복하면서 데이터를 분석함

 

2) 베이지안

- 초기 예상되는 확률을 지정하고 맞는 지 확인하면서 진행

 

 

5. PCA

- 벡터에서 주가 되는 특징 벡터를 추출

 

 

6. 예측 문제

- 회귀분석

- N차원으로 데이터를 선형적으로 나눔

 

7. kNN

- 비선형을 구현할 수 있음

- k를 입력으로 주면 중앙에서 k개를 보고 데이터를 나누어 감

- k를 입력으로 줘야하기 때문에 적절한 값이 아닌 경우 제대로 나오지 않음

 

8. SVN

- 선형적으로 나누지만 Margin을 줘서 그 안에 포함된 것을 한쪽에 줬을 때 에러율이 가장 낮은 값을 Margin으로 줌

 

9. Decision Tree

- 조건트리를 만들어가면서 처리

- 신속한 의사 결정이 됨으로 좋은 모델이 됨

 

10. 로지스틱 회귀

- 로지스틱 곡선: 실제로 일어나는 확률에 대해 범주형 데이터를 가장 잘 표현한 곡선

 

 

11. 군집화

1) K-means

- 군집의 갯수를 정해주고 군집의 중심을 찾고 군집을 정하고 다시 새로운 군집의 중심을 정하고 군집을 정하는 것을 고정될 때까지 반복

- 데이터를 손으로 직접 그어보면서 나눌 수 있으면 사용 가능하지만 그렇지 않다면 사용하기 힘들다

 

2) DBSCAN

- 밀도가 MinPts이상이면 Core, 미만이면 Noise로 정의

- 인접한 데이터들을 반영하는 알고리즘

 

3) Hierachical

- 2개씩 쌍으로 묶어가면서 계층을 만들어가면서 데이터를 군집화함

 

12. 강화학습

- 주어진 문제만 지도를 받고 해결방법은 시행착오를 통해 스스로 찾아냄

- Markov process

 

 

13. Deep Learning

- CNN, RNN

- ReLU

 

 

14. 최초의 인공신경망

1) ANN

- if, else

 

2) 단층 퍼셉트론

- 

 

 

15. CNN

- 압축하면서 작은 부분 큰 부분을 모두 추출하면서 학습

- 이미지에서 특징을 추출해서 학습시키는 방법

 

 

16. RNN

- 앞뒤의 단어간의 관계가 중요

 

+ Recent posts