SQL Server và phần thiết kế database xuất hiện sớm vì đây là nền tảng để hiểu cấu trúc dữ liệu, truy vấn và tối ưu truy xuất trước khi đi vào Data Warehouse hay ETL.
SSIS và Data Warehouse được đặt ở giai đoạn tiếp theo vì workflow Data Engineer thường bắt đầu từ việc lấy dữ liệu, biến đổi dữ liệu và tổ chức dữ liệu vào kho lưu trữ dùng cho báo cáo hoặc khai thác nội bộ.
Hadoop và Spark phù hợp cho phần Big Data vì khi khối lượng dữ liệu tăng lên, người học cần làm quen với RDD, DataFrame, Spark SQL và Stream để xử lý dữ liệu theo hướng phân tán.
AWS, Azure và Google Cloud được đưa vào để mở rộng sang môi trường triển khai thực tế, nơi pipeline dữ liệu và hạ tầng dữ liệu thường gắn với cloud thay vì chỉ chạy cục bộ.