1. 곡선에서 오차를 체크하는 방법

1) 복잡한 모델 (기울기가 있는 곡선으로 표현)

- Bias는 낮으나 Variance는 높다 (낮을 수록 좋음)

- 새로운 형태의 데이터에서 한계가 있음

 

2) 단순한 모델 (평행 직선으로 표현)

- Bias가 높지만 Variance가 상대적으로 낮음

- 새로운 형태의 데이터에서도 똑같이 적용됨(Real Value에 적당)

 

2. 결론

- 간단한 모델로 해서 안되면 점점 복잡한 모델로 가면서 Bias와 Variance를 적당히 맞출 수 있어야 한다.
- 따라서 여러가지 모델을 모두 사용해봐야 한다.

- 하지만 무한한 데이터에 비하여 우리가 가진 데이터는 턱이 없기 때문에 여러 측정 방법을 사용할 수 있다.

 

 

3. Cross Validation

- 모델을 평가하기 위한 방법

- N개의 subset의 갯수만큼

 

 

4. Confusion matrix

1) 네가지로 분류됨

- True Positive, False Positive, False Negative, True Negative

 

2) accuracy(정확도)를 사용하지 않는 이유

- 데이터 1000개 중에 Positive를 위한 40개를 검색했을 때 모두 틀렸다고 하더라도 나머지는 모두 맞은 걸로 분류되기 때문에 0%의
   정확도지만 실제 accuracy값은 96%가 되게 됨(말도 안됨)

- F1-Score를 사용해야 함

- TP / (TP+FP+FN+TN)

 

3) Precision, Recall

- Precision: TP / (TP+FP) => 프로그램이 Positive라고 표현한 것 중 정답인 확률(정확률)

- Recall: TP / (TP+NP) => 실제 정답 중에 프로그램이 맞춘 확률(재현율)

 

4) F-Measure

- Precision, Recall 값을 모두 사용

- 둘 중 특정 값에 가중치를 줘서 평가하는 방법을 사용할 수 있음

- 2*P*R/(P+R)의 기본식에 변형할 수 있음

'데이터 분석가 역량' 카테고리의 다른 글

Day 29 ] Clustering  (0) 2019.06.13
Day 27 ] 기사 분류  (0) 2019.06.10
Day 25 ] Naive Bayes  (0) 2019.06.05
Day 22 ] Classification  (0) 2019.05.30
Day 21 ] Project2 유사도 분석  (0) 2019.05.29

+ Recent posts