Python và Jupyter Notebook được dùng làm môi trường làm việc chính để viết code, thử nghiệm nhanh và theo dõi toàn bộ quy trình phân tích dữ liệu trong một notebook duy nhất. Cách học này phù hợp với người mới vào Data Analysis vì dễ đọc, dễ kiểm tra từng bước xử lý và thuận tiện khi lặp lại workflow phân tích.
NumPy và pandas là bộ công cụ cốt lõi cho các tác vụ xử lý dữ liệu số, dữ liệu bảng, làm sạch dữ liệu và biến đổi cấu trúc dữ liệu trước khi phân tích. Đây là nhóm kỹ năng rất gần với JD của các vị trí Data Analyst hoặc Junior Data/ML vì nằm ở phần chuẩn bị dữ liệu trước khi báo cáo hoặc huấn luyện mô hình.
Matplotlib và seaborn phục vụ bước visualization, giúp chuyển dữ liệu thành biểu đồ để diễn giải insight rõ hơn thay vì chỉ nhìn bảng số liệu. Trong workflow thực tế, đây là bước nối giữa data cleaning và phần ra quyết định hoặc trình bày kết quả phân tích.
Scikit-learn xuất hiện ở giai đoạn machine learning cơ bản, nơi người học làm quen với pipeline xây model, train và đánh giá các mô hình như linear regression, logistic regression và decision tree. Việc ghép scikit-learn sau phần data analysis giúp lộ trình bám sát quy trình làm việc thực tế: chuẩn bị dữ liệu trước, rồi mới xây model ML.