Pictory, HeyGen, Runway ML, Veed.io và D-ID được đưa vào vì đây là nhóm công cụ xử lý phần tạo video AI theo nhiều kiểu khác nhau: từ video từ văn bản, video có presenter ảo, đến chỉnh sửa và dựng nội dung video tự động hơn. Trong workflow sản xuất nội dung, nhóm công cụ này nằm ở lớp chuyển từ ý tưởng và kịch bản sang video hoàn chỉnh.
ElevenLabs, Microsoft Azure và Google TTS phục vụ riêng cho khâu giọng đọc AI, phù hợp khi người học cần tạo voice cho video bài giảng, video bán hàng hoặc video truyền thông mà không có giọng thu sẵn. Việc đặt phần voice trước các bước ghép hình giúp quy trình dễ kiểm soát nhịp nội dung hơn.
Midjourney và các nguồn ảnh, video, âm thanh free được dùng ở lớp tài nguyên vì video AI thường cần nhiều lớp dữ liệu đầu vào để ghép cảnh, minh họa và giữ nhịp thị giác. Cách sắp xếp này khá hợp lý cho người mới: có ý tưởng, có giọng đọc, có tài nguyên, rồi mới tiến tới dựng video bài giảng, video quảng cáo hoặc phim hoạt hình.