Khoảng trống kỹ năng tiềm ẩn: Tại sao chỉ biết SQL + Python…

Bài viết này đề cập đến khoảng cách giữa những gì ứng viên chuẩn bị và những gì các công ty thực sự cần vào thời điểm hiện tại.

Blog Bài viết hàng đầu Giới thiệu Chủ đề AI Lời khuyên nghề nghiệp Thị giác máy tính Kỹ thuật dữ liệu Khoa học dữ liệu Mô hình ngôn ngữ Học máy MLOps Xử lý ngôn ngữ tự nhiên (NLP) Lập trình Python SQL Tập dữ liệu Sự kiện Tài nguyên Tóm tắt kiến thức Đề xuất Bản tin công nghệ Quảng cáo Tham gia Bản tin Khoảng cách kỹ năng tiềm ẩn: Tại sao chỉ biết SQL + Python không còn đủ nữa Bài viết này đề cập đến khoảng cách giữa những gì ứng viên chuẩn bị và những gì các công ty thực sự cần vào thời điểm hiện tại. Bởi Nate Rosidi, Chuyên gia xu hướng thị trường & nội dung SQL của KDnuggets vào ngày 18/5/2026 trong mục Lời khuyên nghề nghiệp # SQL + Python không còn đủ nữa Trong nhiều năm, công thức dường như đơn giản: học SQL + học Python = có được một công việc liên quan đến dữ liệu. Đặc biệt khi các công ty cỡ trung bắt đầu trở thành "doanh nghiệp dựa trên dữ liệu". Các nhà tuyển dụng rất vui khi có thể tìm được bất kỳ ai có thể viết một câu lệnh GROUP BY khá tốt và xử lý một DataFrame của pandas mà không gây ra lỗi. Bạn biết PostgreSQL là gì ư? Vào làm đi, bạn đã có việc rồi! Điều này đã hiệu quả trong một thời gian. Cho đến khi nó không còn hiệu quả nữa. Nếu bạn chưa nhận ra, thị trường việc làm của các chuyên gia dữ liệu đã trải qua một sự thay đổi cấu trúc. Đúng, SQL và Python vẫn quan trọng; chúng có trong mọi mô tả công việc. Nhưng chúng đã bị hạ cấp từ yếu tố tạo sự khác biệt thành điều kiện tiên quyết. Có khả năng bạn vẫn đang tối ưu hóa cho các câu hỏi phỏng vấn mà bạn đã luyện tập ba năm trước. Hãy quên điều đó đi. Bài viết này đề cập đến khoảng cách giữa những gì ứng viên chuẩn bị và những gì các công ty thực sự cần vào thời điểm hiện tại. # Thị trường việc làm thực sự đang yêu cầu gì Một phân tích vào tháng 1/2026 của Future Proof Data Science về hơn 700 tin tuyển dụng nhà khoa học dữ liệu cho thấy Python và SQL vẫn nằm trong ba kỹ năng hàng đầu, nhưng các kỹ năng học máy (Machine Learning) và AI đứng thứ hai và thứ tư. Nguồn ảnh: Future Proof Data Science Không phải tất cả các tin tuyển dụng liên quan đến AI đều yêu cầu chuyên môn AI thực tế, nhưng 1 trong 3 tin tuyển dụng có yêu cầu này. Các kỹ năng AI cụ thể được yêu cầu nhiều nhất là: Mô hình ngôn ngữ lớn (LLM) Tạo sinh tăng cường truy xuất (RAG) Kỹ thuật nhắc lệnh (Prompt engineering) Cơ sở dữ liệu vector Điều này cho thấy nhu cầu ngày càng tăng đối với các chuyên gia dữ liệu có khả năng xây dựng và triển khai các hệ thống AI. Hãy nhớ rằng hướng đi và tốc độ của sự thay đổi này rất quan trọng. Điều này gợi nhớ về cách học máy đã chuyển từ một yêu cầu chuyên biệt vào năm 2012 thành một yêu cầu gần như phổ biến vào năm 2020. Câu chuyện thứ hai ít được chú ý hơn nhưng có lẽ cấp bách hơn đối với hầu hết các ứng viên: tiêu chuẩn kỹ thuật nền tảng đã tăng mạnh. Các kỹ năng kỹ thuật dữ liệu — đường ống dữ liệu (pipelines), điều phối (orchestration), nền tảng đám mây, kiểm tra chất lượng dữ liệu — và học máy trong sản xuất — giám sát mô hình, phát hiện độ trôi (drift detection), thiết kế đánh giá — hiện là những kỳ vọng cốt lõi chứ không phải là điểm cộng trong các tin tuyển dụng khoa học dữ liệu. Chỉ cần lướt qua bất kỳ trang tìm việc lớn nào cũng có thể xác nhận điều đó: cùng với các kỹ năng AI, các vị trí có tiêu đề "Nhà khoa học dữ liệu" thường liệt kê Snowflake, dbt, Airflow và quyền sở hữu đường ống ETL (Extract, Transform, Load) là các yêu cầu bắt buộc, chứ không phải là những yếu tố đáng có. Có bốn kỹ năng mà bạn có thể đang thiếu. Đây là những yếu tố tạo sự khác biệt mới trên thị trường việc làm hiện tại. # Kỹ năng số 1: Mô hình hóa dữ liệu // Nó là gì Mô hình hóa dữ liệu là khả năng thiết kế cách dữ liệu nên được cấu trúc, liên kết và lưu trữ. Có thể hình dung đây là việc quyết định tạo ra những bảng nào, chúng đại diện cho điều gì và mối quan hệ giữa chúng. // Tại sao đây trở thành yếu tố khác biệt Những cải tiến về công cụ đã thay đổi cục diện. Snowflake, dbt và BigQuery đều giúp các nhà khoa học dữ liệu dễ dàng kiểm soát lớp chuyển đổi dữ liệu. Nói cách khác, các quyết định mô hình hóa trước đây thuộc về kỹ sư dữ liệu nay đang được chuyển giao cho các nhà khoa học dữ liệu. Nếu thiết kế sai lược đồ dữ liệu, bạn sẽ gặp phải những vấn đề nghiêm trọng. Thông thường, những lỗi này không hiển thị ngay lập tức. Một khi chúng trở nên rõ ràng, thì đã quá muộn. Công việc học máy của bạn đã bị ảnh hưởng bởi kỹ thuật đặc trưng được xây dựng trên dữ liệu có độ chi tiết sai lệch — một hệ quả trực tiếp của nền tảng được mô hình hóa kém. // Cách để đạt được kỹ năng này Lấy một tập dữ liệu thực tế mà bạn đang làm việc và thiết kế lại lược đồ của nó từ đầu. Hãy tự hỏi những câu hỏi sau: Các thực thể là gì? Chúng liên quan đến điều gì? Độ chi tiết nào là hợp lý? Những truy vấn nào sẽ chạy thường xuyên nhất? Sau đó, hãy đọc về mô hình hóa chiều (dimensional modeling). Cách tiếp cận của Kimball, được trình bày chi tiết trong cuốn sách The Data Warehouse Toolkit của ông, vẫn là một tài liệu tham khảo hữu ích. # Kỹ năng số 2: Tối ưu hóa hiệu suất // Đây là gì Tối ưu hóa hiệu suất là việc hiểu tại sao một truy vấn chạy theo cách nó chạy và làm thế nào để làm cho nó chạy nhanh hơn, rẻ hơn hoặc ở quy mô lớn hơn. Bạn có thể tối ưu hóa các truy vấn SQL, cũng như các pipeline Python và quy trình làm việc dữ liệu nói chung — các nhà khoa học dữ liệu ngày càng kiểm soát chúng từ đầu đến cuối. // Tại sao đây trở thành yếu tố khác biệt Thứ nhất, khối lượng dữ liệu đã tăng đến mức một truy vấn đúng nhưng không hiệu quả có thể tiêu tốn hàng trăm đô la và hết thời gian trong môi trường sản xuất. Thứ hai, như đã đề cập trước đó, các nhà khoa học dữ liệu hiện phải kiểm soát nhiều hơn trong pipeline so với trước đây. Mã của bạn phải sẵn sàng cho môi trường sản xuất, không chỉ chạy được trong Jupyter notebooks. // Cách để đạt được kỹ năng này Chọn một số truy vấn SQL phức tạp mà bạn đã viết, chạy EXPLAIN ANALYZE trên chúng và đọc những gì trình lập kế hoạch truy vấn thực sự đã làm. Sau đó sử dụng thông tin đó để tối ưu hóa truy vấn. Bạn có thể sẽ tìm thấy ít nhất một chỉ mục, cấu trúc lại hoặc viết lại giúp cải thiện mỗi truy vấn. Đối với một pipeline Python chậm, hãy lập hồ sơ (profile) nó. Có hai công cụ chính để đo thời gian: cProfile: Chạy nó với python -m cProfile -s cumulative your_script.py và nhìn vào phần đầu của kết quả để xem các hàm tiêu tốn nhiều thời gian tích lũy nhất. line_profiler: Đi sâu hơn bằng cách hiển thị thời gian thực thi từng dòng trong một hàm cụ thể. Sử dụng nó khi cProfile đã cho bạn biết hàm nào chậm và bạn cần biết lý do.

Khoảng trống kỹ năng tiềm ẩn: Tại sao chỉ biết SQL + Python không còn là đủ