Regex, tokenizer và các bước chuẩn hóa văn bản được đưa lên đầu vì đây là lớp xử lý đầu vào trong gần như mọi bài toán NLP. Trước khi đi vào embedding hay mô hình học sâu, người học cần biết cách làm sạch và phân đoạn dữ liệu text để đầu vào đủ ổn định.
Word embeddings như Word2Vec, GloVe và FastText là bước chuyển từ văn bản rời rạc sang biểu diễn vector, giúp mô hình nắm được ngữ nghĩa thay vì chỉ nhìn từng từ độc lập. Đây là nền tảng hợp lý trước khi học RNN, LSTM và Transformer.
Transformer, BERT và GPT được đặt ở phần sau vì chúng phản ánh workflow NLP hiện đại: hiểu ngữ cảnh, sinh ngôn ngữ và khai thác mô hình tiền huấn luyện. Cách sắp xếp này phù hợp với người mới vì đi từ biểu diễn text, xử lý chuỗi, đến mô hình ngôn ngữ và ứng dụng.
RAG + Vector Search, Information Retrieval và Prompt Engineering được đưa vào cuối để nối phần nền tảng với các bài toán AI ứng dụng như truy vấn văn bản, tìm kiếm ngữ nghĩa và tạo hệ thống sinh câu trả lời có ngữ cảnh.