Python là nền tảng phù hợp để đi vào workflow data science vì người học có thể xử lý dữ liệu, thử thuật toán và chuyển sang phân tích mô hình trong cùng một môi trường học tập.
Pandas và Numpy được đặt ở phần xử lý dữ liệu vì đây là bước đầu của hầu hết bài toán phân tích: làm sạch dữ liệu, thao tác bảng, chuẩn bị đầu vào trước khi đưa vào mô hình machine learning.
Scikit-learn phù hợp cho phần học máy cơ bản vì hỗ trợ trực tiếp các thuật toán như regression, decision tree, KNN, clustering và các bước xây mô hình, đánh giá mô hình theo một pipeline khá rõ ràng.
Matplotlib và Seaborn được dùng ở giai đoạn trực quan hóa để người học đọc dữ liệu, nhìn xu hướng và hiểu kết quả mô hình trước khi sang phần evaluation hoặc project nhỏ.