Bỏ qua tới nội dung chính
Quay lại tin tức

Từ Nhà phân tích dữ liệu đến Kỹ sư dữ liệu: Lộ trình tự học 12 tháng của tôi

Towards Data Science· Ibrahim Salami· 16/5/2026general

Các công cụ chính xác mà tôi đang học, các dự án tôi đang xây dựng và những sai lầm mà tôi dự kiến sẽ mắc phải Bài đăng Từ nhà phân tích dữ liệu đến kỹ sư dữ liệu: Lộ trình tự học 12 tháng của tôi xuất hiện đầu tiên trên Hướng tới khoa học dữ liệu.

Kỹ thuật dữ liệu Từ Nhà phân tích dữ liệu đến Kỹ sư dữ liệu: Lộ trình tự học 12 tháng của tôi Các công cụ chính xác mà tôi đang học, các dự án tôi đang xây dựng và những sai lầm mà tôi dự kiến sẽ mắc phải Ibrahim Salami Ngày 16 tháng 5 năm 2026 đọc 10 phút Chia sẻ Được tạo bằng Gemini AI Thành thật mà nói. Một phần trong tôi bắt đầu hành trình này vì kỹ thuật dữ liệu là một trong những nghề hot nhất và được trả lương cao nhất hiện nay. Tôi sẽ không giả vờ rằng đó không phải là một yếu tố. Nhưng còn nhiều điều hơn thế nữa. Tôi đã học phân tích dữ liệu được một thời gian. SQL, Power BI, Python (Pandas, NumPy, một chút Polars), làm sạch dữ liệu, EDA. Bạn đặt tên cho nó, tôi đã làm cỏ với nó. Và tôi thực sự thích nó. Nhưng ở đâu đó, tôi bắt đầu tò mò về điều gì sẽ xảy ra trước khi dữ liệu rơi xuống bàn của tôi. Nó di chuyển như thế nào? Ai xây dựng những đường ống đó? Cơ sở hạ tầng đằng sau tất cả những điều này thực sự trông như thế nào? Sự tò mò đó đã gieo một hạt giống. Sau đó, AI bắt đầu thực hiện nhiều việc tôi làm nhanh hơn và dễ dàng hơn. Điều đó thật tuyệt vời. Nhưng nó cũng khiến tôi suy nghĩ: nếu AI có thể xử lý việc phân tích thì lợi thế của tôi là gì? Tôi có thể xây dựng và hiểu những gì sâu hơn? Tôi làm Nhà phân tích hệ thống CNTT tại một công ty khởi nghiệp và trong khi yêu thích công việc này, tôi nhận ra rằng mình đang không thử thách bản thân theo cách mình muốn. Tôi đã sẵn sàng cho nhiều hơn nữa. Cú hích cuối cùng đến từ video của Data With Baraa, nơi anh ấy vạch ra lộ trình kỹ thuật dữ liệu hoàn chỉnh. Có điều gì đó khi nhìn thấy nó được cấu trúc và chia nhỏ khiến nó có cảm giác chân thực và khả thi. Vậy nên tôi ở đây. Tôi đang học kỹ thuật dữ liệu ở nơi công cộng. Và bài viết này là sự khởi đầu của cuộc hành trình đó. Ngoài ra, chỉ để lại tuyên bố từ chối trách nhiệm rằng tôi không liên kết với Data với Baraa. Tôi chỉ chia sẻ hành trình cá nhân của mình. Hy vọng nó sẽ giúp ích. Tại sao cụ thể là Kỹ thuật dữ liệu Tôi muốn dành một chút thời gian ở đây vì tôi nghĩ câu hỏi này xứng đáng có được câu trả lời thực sự. Phân tích dữ liệu đã dạy tôi cách làm việc với dữ liệu sau khi nó đến. Làm sạch nó, khám phá nó, hình dung nó, rút ​​ra những hiểu biết sâu sắc từ nó. Bộ kỹ năng đó thực sự có giá trị. Nhưng càng học, tôi càng va vào cùng một bức tường. Dữ liệu tôi đang làm việc đã được người khác định hình và di chuyển. Ai đó đã xây dựng đường dẫn mang nó đến cho tôi. Ai đó đã quyết định cách nó được lưu trữ, cấu trúc và tần suất làm mới nó. Tôi muốn trở thành người đó. Kỹ thuật dữ liệu nằm ở thượng nguồn của phân tích. Đó là về việc xây dựng các hệ thống có thể thực hiện phân tích ngay từ đầu. Đường ống dữ liệu, kiến ​​trúc lưu trữ, điều phối quy trình làm việc, xử lý dữ liệu quy mô lớn. Đây là nền tảng mà mọi thứ khác đều được xây dựng trên đó. Và thành thật mà nói, loại công việc cơ sở hạ tầng đó hấp dẫn tôi theo cách mà phân tích thuần túy không còn làm được nữa. Ngoài ra còn có một lập luận thực tế. Các vai trò kỹ thuật dữ liệu luôn được xếp hạng trong số những người được trả lương cao nhất trong ngành dữ liệu. Khi các công cụ AI ngày càng tự động hóa lớp phân tích tốt hơn, nhu cầu về những người có thể xây dựng và duy trì cơ sở hạ tầng dữ liệu đáng tin cậy sẽ ngày càng tăng lên. Tôi thà xây dựng các đường ống hơn là chỉ sử dụng chúng. Và một điều nữa. Công ty khởi nghiệp nơi tôi làm việc không sử dụng bất kỳ công cụ nào mà tôi sắp học. Điều đó có nghĩa là mỗi giờ tôi dành cho việc này hoàn toàn là do tôi tự định hướng. Không có nhóm nào để học hỏi, không có dự án công việc nào để áp dụng nó. Chỉ có tôi, internet và bất cứ thứ gì tôi có thể tự xây dựng. Đó là một thử thách mà tôi cố ý lựa chọn. Tại sao tôi làm điều này ở nơi công cộng Viết về những gì tôi học được là điều tôi đã tin tưởng sâu sắc. Nó buộc bạn phải thực sự hiểu điều gì đó trước khi giải thích nó. Nó giúp bạn có trách nhiệm. Và theo thời gian, nó tạo nên một điều gì đó mà một bản lý lịch không bao giờ có thể làm được. Nhưng tôi cũng sẽ thành thật về nỗi sợ hãi của mình, bởi vì tôi nghĩ đó là mục đích của việc công khai việc này. Tôi mắc hội chứng đồ vật sáng bóng. Đó, tôi đã nói rồi. Tôi đã khám phá thiết kế đồ họa, hoạt hình, viết lách, tiếp thị và CNTT trước khi chuyển sang lĩnh vực dữ liệu. Luôn có điều gì đó mới mẻ và thú vị thu hút sự chú ý của tôi. Kỹ thuật dữ liệu có thể dễ dàng bị thay thế bởi thứ hào nhoáng tiếp theo trong nguồn cấp dữ liệu của tôi nếu tôi không cố ý về nó. Tính nhất quán là một cái khác. Tôi làm việc từ 9 giờ sáng đến 5 giờ chiều và hầu như không chạm vào những công cụ tôi sẽ học. Không có sự củng cố tự nhiên nào ở nơi làm việc, không có đồng nghiệp nào mà tôi có thể giải đáp các câu hỏi về Airflow. Tôi đang xây dựng điều này hoàn toàn bằng thời gian của riêng mình, ngoài trách nhiệm công việc của mình. Và cân bằng. Mục tiêu là ba đến bốn giờ một ngày. Một số ngày sẽ cảm thấy dễ dàng. Những ngày khác sẽ cảm thấy không thể. Xuất bản hành trình này là hệ thống trách nhiệm của tôi. Nếu tôi im lặng, bạn sẽ biết tôi đã trượt. Và tôi không muốn trượt. Những gì tôi đang bắt đầu với Tôi không bắt đầu từ con số 0, điều này có ích. Tôi đã có kiến ​​thức SQL từ sơ cấp đến trung cấp từ công việc phân tích dữ liệu của mình, các nguyên tắc cơ bản về Python và một số kinh nghiệm thực hành với Pandas. Điều đó mang lại cho tôi nền tảng để xây dựng thay vì xây dựng lại từ đầu. Đây là toàn bộ tài liệu học tập, gần như theo thứ tự tôi sẽ giải quyết. 1. SQL: Đi sâu hơn phân tích Tôi biết SQL. Nhưng SQL phân tích và SQL kỹ thuật là những động vật khác nhau. Tôi sẽ đi sâu hơn vào tối ưu hóa truy vấn, lập chỉ mục, làm việc với các tập dữ liệu rất lớn và viết SQL được xây dựng để đạt hiệu suất thay vì chỉ khám phá. Nếu bạn mới chỉ sử dụng SQL để lấy và lọc dữ liệu thì có cả một lớp khác bên dưới đáng để hiểu. Tại sao lại là đầu tiên: Mọi thứ trong kỹ thuật dữ liệu cuối cùng đều chạm đến SQL. Làm sắc nét ở đây trước khi xếp lớp vào các công cụ phức tạp hơn sẽ giúp phần còn lại của hành trình trở nên dễ dàng hơn. 2. Python: Từ khám phá đến sẵn sàng sản xuất Tôi có những điều cơ bản. Pandas, NumPy, một số Polars. Nhưng Python mà tôi đang viết chủ yếu nằm trong sổ ghi chép. Mang tính khám phá, lộn xộn, không được xây dựng để tồn tại lâu dài. Mục tiêu bây giờ là viết mã sạch hơn, có cấu trúc hơn và có thể tái sử dụng. Chức năng, mô-đun,

Nguồn tin: Towards Data Science — Tác giả: Ibrahim Salami. Bản dịch tiếng Việt do AI thực hiện, có thể có sai sót.