Week 2: Deadline from December 14, 2024 to December 24, 2024

I. Lý thuyết về confusion matrix

1. Giới thiệu bài toán

Giả sử chúng ta sẽ có một bài toán về chuẩn đoán ung thư:

Bài toán mà ta cần thực hiện là bài toán phân loại nhị phân:

$$ accuracy = \dfrac{so\_data\_du\_doan\_dung}{tong\_so\_data} $$

Vấn đề gặp phải:

Do data huấn luyện bị chênh lệch nên tất cả các hồ sơ mà bệnh nhân đưa vào đều trả về kết quả là không có bệnh. ⇒ Phương pháp dùng accuracy hiện tại không phản ánh được độ tốt/chính xác của mô hình trong thực tế.

2. Confusion matrix

Confusion matrix

Chúng ta sẽ dùng 4 giá trị đánh giá khác nhau được sắp xếp thành một ma trận gọi là confusion matrix để giải quyết vấn đề ở phần trên:

Đổi hình

Ví dụ minh họa

Từ các ví dụ ở phần I.1, ví dụ ta có một tập dữ liệu gồm 12 bệnh nhân như hình dưới đây:

image.png

Sau đó xác định TP, TN, FP, FN chúng ta xây dựng được confusion matrix như dưới đây:

Đổi hình

3. Lý thuyết các Metric trong Machine Learning