RỪNG NGẪU NHIÊN XÁC SUẤT VÀ KHẢ NĂNG MÔ HÌNH HÓA SỰ BẤT ĐỊNH TRONG HỌC MÁY
PROBABILISTIC RANDOM FOREST AND ITS ROLE IN MODELING UNCERTAINTY IN MACHINE LEARNING
DOI:
https://doi.org/10.2023/blunisj.10.10.2025.54Từ khóa:
Dữ liệu bất định, Hàm khối lượng xác suất, Hàm mật độ xác suất, Học máy, PRF, Rừng ngẫu nhiên xác suấtTóm tắt
Dữ liệu thực tế thường chứa độ bất định do nhiễu đo lường, gán nhãn không nhất quán hoặc thiếu thông tin, làm giảm đáng kể hiệu suất và độ tin cậy của các mô hình học máy truyền thống. Để giải quyết hạn chế này, thuật toán Rừng ngẫu nhiên xác suất (Probabilistic Random Forest – PRF) ra đời như một mở rộng mạnh mẽ của Rừng ngẫu nhiên truyền thống, cho phép tích hợp trực tiếp phân phối xác suất vào kiến trúc cây quyết định. PRF mô hình hóa đặc trưng đầu vào dưới dạng hàm mật độ xác suất (PDF) và nhãn đầu ra dưới dạng hàm khối lượng xác suất (PMF), qua đó duy trì và khai thác thông tin bất định xuyên suốt quá trình lan truyền và phân lớp, từ đó nâng cao độ chính xác và khả năng giải thích. Bài báo này trình bày chi tiết cơ chế hoạt động và các nguyên lý toán học của PRF, bao gồm cơ chế lan truyền xác suất theo từng nút, hàm chi phí kỳ vọng dựa trên Gini impurity mở rộng để tối ưu hóa việc chia nhánh, và phương pháp tổng hợp kết quả dự đoán thông qua bỏ phiếu mềm. Điểm mới quan trọng mà bài báo nhấn mạnh là khả năng PRF cung cấp kết quả dự đoán dưới dạng một phân phối xác suất đầy đủ thay vì một nhãn duy nhất, qua đó cho phép lượng hóa trực tiếp độ tin cậy của dự đoán.