Week 2: Deadline from December 14, 2024 to December 24, 2024
I. Lý thuyết về confusion matrix
1. Giới thiệu bài toán
Giả sử chúng ta sẽ có một bài toán về chuẩn đoán ung thư:
Bài toán mà ta cần thực hiện là bài toán phân loại nhị phân:
- Nhãn(label): bệnh nhân ung thư có nhãn là 1 và bệnh nhân không ung thư có nhãn là 0.
- Input là hồ sơ bệnh nhân
- Output trả về sẽ là 0 hoặc 1
- Dùng accuracy để đo độ chính xác của mô hình. Mô hình đạt khoảng 99% accuracy sau khi huấn luyện:
$$
accuracy = \dfrac{so\_data\_du\_doan\_dung}{tong\_so\_data}
$$
Vấn đề gặp phải:
Do data huấn luyện bị chênh lệch nên tất cả các hồ sơ mà bệnh nhân đưa vào đều trả về kết quả là không có bệnh.
⇒ Phương pháp dùng accuracy hiện tại không phản ánh được độ tốt/chính xác của mô hình trong thực tế.
2. Confusion matrix
Confusion matrix
Chúng ta sẽ dùng 4 giá trị đánh giá khác nhau được sắp xếp thành một ma trận gọi là confusion matrix để giải quyết vấn đề ở phần trên:
Đổi hình
- Trường hợp dự đoán chính xác: TP, TN. Giá trị TP, TN càng cao thì mô hình dự đoán càng chính xác.
- Trường hợp dự đoán sai: FP, FN
Ví dụ minh họa
Từ các ví dụ ở phần I.1, ví dụ ta có một tập dữ liệu gồm 12 bệnh nhân như hình dưới đây:

Sau đó xác định TP, TN, FP, FN chúng ta xây dựng được confusion matrix như dưới đây:
Đổi hình
3. Lý thuyết các Metric trong Machine Learning