day 28 ] 성능평가

2019. 6. 11. 22:15

1. 곡선에서 오차를 체크하는 방법

1) 복잡한 모델 (기울기가 있는 곡선으로 표현)

- Bias는 낮으나 Variance는 높다 (낮을 수록 좋음)

- 새로운 형태의 데이터에서 한계가 있음

2) 단순한 모델 (평행 직선으로 표현)

- Bias가 높지만 Variance가 상대적으로 낮음

- 새로운 형태의 데이터에서도 똑같이 적용됨(Real Value에 적당)

2. 결론

- 간단한 모델로 해서 안되면 점점 복잡한 모델로 가면서 Bias와 Variance를 적당히 맞출 수 있어야 한다.
- 따라서 여러가지 모델을 모두 사용해봐야 한다.

- 하지만 무한한 데이터에 비하여 우리가 가진 데이터는 턱이 없기 때문에 여러 측정 방법을 사용할 수 있다.

3. Cross Validation

- 모델을 평가하기 위한 방법

- N개의 subset의 갯수만큼

4. Confusion matrix

1) 네가지로 분류됨

- True Positive, False Positive, False Negative, True Negative

2) accuracy(정확도)를 사용하지 않는 이유

- 데이터 1000개 중에 Positive를 위한 40개를 검색했을 때 모두 틀렸다고 하더라도 나머지는 모두 맞은 걸로 분류되기 때문에 0%의
정확도지만 실제 accuracy값은 96%가 되게 됨(말도 안됨)

- F1-Score를 사용해야 함

- TP / (TP+FP+FN+TN)

3) Precision, Recall

- Precision: TP / (TP+FP) => 프로그램이 Positive라고 표현한 것 중 정답인 확률(정확률)

- Recall: TP / (TP+NP) => 실제 정답 중에 프로그램이 맞춘 확률(재현율)

4) F-Measure

- Precision, Recall 값을 모두 사용

- 둘 중 특정 값에 가중치를 줘서 평가하는 방법을 사용할 수 있음

- 2*P*R/(P+R)의 기본식에 변형할 수 있음

Stack Writing