1. 곡선에서 오차를 체크하는 방법
1) 복잡한 모델 (기울기가 있는 곡선으로 표현)
- Bias는 낮으나 Variance는 높다 (낮을 수록 좋음)
- 새로운 형태의 데이터에서 한계가 있음
2) 단순한 모델 (평행 직선으로 표현)
- Bias가 높지만 Variance가 상대적으로 낮음
- 새로운 형태의 데이터에서도 똑같이 적용됨(Real Value에 적당)
2. 결론
- 간단한 모델로 해서 안되면 점점 복잡한 모델로 가면서 Bias와 Variance를 적당히 맞출 수 있어야 한다.
- 따라서 여러가지 모델을 모두 사용해봐야 한다.
- 하지만 무한한 데이터에 비하여 우리가 가진 데이터는 턱이 없기 때문에 여러 측정 방법을 사용할 수 있다.
3. Cross Validation
- 모델을 평가하기 위한 방법
- N개의 subset의 갯수만큼
4. Confusion matrix
1) 네가지로 분류됨
- True Positive, False Positive, False Negative, True Negative
2) accuracy(정확도)를 사용하지 않는 이유
- 데이터 1000개 중에 Positive를 위한 40개를 검색했을 때 모두 틀렸다고 하더라도 나머지는 모두 맞은 걸로 분류되기 때문에 0%의
정확도지만 실제 accuracy값은 96%가 되게 됨(말도 안됨)
- F1-Score를 사용해야 함
- TP / (TP+FP+FN+TN)
3) Precision, Recall
- Precision: TP / (TP+FP) => 프로그램이 Positive라고 표현한 것 중 정답인 확률(정확률)
- Recall: TP / (TP+NP) => 실제 정답 중에 프로그램이 맞춘 확률(재현율)
4) F-Measure
- Precision, Recall 값을 모두 사용
- 둘 중 특정 값에 가중치를 줘서 평가하는 방법을 사용할 수 있음
- 2*P*R/(P+R)의 기본식에 변형할 수 있음
'데이터 분석가 역량' 카테고리의 다른 글
Day 29 ] Clustering (0) | 2019.06.13 |
---|---|
Day 27 ] 기사 분류 (0) | 2019.06.10 |
Day 25 ] Naive Bayes (0) | 2019.06.05 |
Day 22 ] Classification (0) | 2019.05.30 |
Day 21 ] Project2 유사도 분석 (0) | 2019.05.29 |