Anaconda và Jupyter Notebook được đặt ở phần đầu vì đây là môi trường làm việc phổ biến cho người học data: cài đặt nhanh, chạy code theo từng ô, dễ quan sát kết quả khi học cú pháp Python và kiểm tra dữ liệu.
NumPy và Pandas là lớp công cụ xử lý dữ liệu cốt lõi trong workflow phân tích dữ liệu: NumPy hỗ trợ thao tác số liệu và thống kê cơ bản, còn Pandas phù hợp để đọc, ghi và làm việc với DataFrame khi xử lý dữ liệu bảng.
Matplotlib và Seaborn được đưa vào sau khi đã xử lý dữ liệu vì trực quan hóa chỉ có ý nghĩa khi dữ liệu đã được chuẩn bị đúng. Cách sắp xếp này giúp người học đi theo logic phân tích thực tế: thu thập và xử lý dữ liệu trước, rồi mới chuyển sang biểu đồ và báo cáo.
MySQL, SQLite và Scikit-learn mở rộng workflow từ dữ liệu lưu trữ sang truy vấn và mô hình hóa cơ bản. Đây là thứ tự hợp lý cho người mới vì giúp học từng lớp kỹ năng: môi trường làm việc → xử lý dữ liệu → trực quan hóa → kết nối database → ứng dụng machine learning.