scikit-learn và Spark ML xuất hiện ở phần xử lý dữ liệu lớn và machine learning quy mô lớn vì đây là lớp công cụ phù hợp cho workflow từ tiền xử lý dữ liệu, huấn luyện mô hình đến đánh giá trên các tập dữ liệu lớn.
Random Forest, Gradient Boosting, XGBoost và LightGBM được đặt trong nhóm Ensemble Models vì đây là các thuật toán thường dùng khi cần tăng chất lượng dự đoán trên dữ liệu có cấu trúc, đặc biệt trong các bài toán classification và regression như tín dụng hay doanh số.
Cross-validation, Hyperparameter Tuning và Bias-Variance Tradeoff được đưa vào để người học hiểu cách kiểm soát chất lượng mô hình, tránh overfitting và chọn cấu hình phù hợp thay vì chỉ train mô hình rồi đọc kết quả.
Docker, REST, AWS/GCP và Cloud được dùng trong phần MLOps & Deployment để nối bước giữa phát triển mô hình và triển khai thực tế, giúp mô hình có thể đóng gói, phục vụ qua API và đi vào môi trường sản phẩm.
LIME, SHAP, AutoML và các chủ đề LLMs được thêm vào vì đây là các công cụ và hướng tiếp cận đang hiện diện rõ trong workflow AI hiện đại: giải thích mô hình, tự động hóa chọn mô hình và tích hợp mô hình ngôn ngữ vào bài toán phân tích văn bản hoặc trích xuất thông tin.