Chuyển mình từ Data Analyst sang Data Engineer: Lộ trình tự học 12 tháng

Bài viết chia sẻ hành trình và lộ trình chi tiết trong 12 tháng để chuyển đổi từ chuyên gia phân tích dữ liệu sang kỹ sư dữ liệu. Tác giả sẽ đi sâu vào việc làm chủ các công cụ như SQL nâng cao, Python, Apache Spark, Airflow và Databricks, đồng thời chia sẻ những dự án thực tế và thách thức trong quá trình tự học.

Thú thật, một phần lý do tôi bắt đầu hành trình này là vì Data Engineering (Kỹ sư dữ liệu) đang là một trong những nghề nghiệp "hot" và có mức lương cao nhất hiện nay. Tôi không giả vờ rằng yếu tố tài chính không quan trọng.

Tuy nhiên, còn nhiều điều hơn thế nữa. Tôi đã học Phân tích dữ liệu (Data Analytics) một thời gian rồi: SQL, Power BI, Python (Pandas, NumPy, một chút Polars), làm sạch dữ liệu, EDA... Tôi thực sự thích nó. Nhưng dọc theo đường đi, tôi bắt đầu tò mò về những gì xảy ra trước khi dữ liệu đến bàn làm việc của tôi. Dữ liệu di chuyển như thế nào? Ai xây dựng các đường ống (pipelines) đó? Hạ tầng đằng sau tất cả trông như thế nào?

Sự tò mò đó đã gieo một hạt mầm. Sau đó, AI bắt đầu làm cho nhiều công việc của tôi nhanh hơn và dễ dàng hơn. Điều đó rất tuyệt, nhưng nó cũng khiến tôi suy nghĩ: nếu AI có thể xử lý phân tích, thì lợi thế của tôi là gì? Tôi có thể xây dựng và hiểu điều gì sâu sắc hơn? Tôi làm việc với tư cách là một IT System Analyst tại một startup, và dù tôi thích công việc này, tôi nhận ra mình không đang thử thách bản thân theo cách mình muốn. Tôi đã sẵn sàng cho nhiều hơn.

Tại sao lại là Data Engineering?

Tôi muốn dành một chút thời gian ở đây vì tôi nghĩ câu hỏi này xứng đáng có một câu trả lời nghiêm túc.

Phân tích dữ liệu dạy tôi cách làm việc với dữ liệu sau khi nó đến. Làm sạch, khám phá, trực quan hóa và rút ra thông tin chi tiết. Bộ kỹ năng đó thực sự có giá trị. Nhưng càng học nhiều, tôi càng vấp phải cùng một bức tường. Dữ liệu tôi làm việc đã được định hình và di chuyển bởi người khác. Đã có ai đó xây dựng đường ống đưa nó đến tôi. Đã có ai đó quyết định cách lưu trữ, cấu trúc và tần suất làm mới nó.

Tôi muốn trở thành người đó.

Data Engineering nằm ở thượng nguồn của phân tích. Nó liên quan đến việc xây dựng các hệ thống làm cho việc phân tích trở nên khả thi ngay từ đầu. Các đường ống dữ liệu, kiến trúc lưu trữ, điều phối quy trình làm việc, xử lý dữ liệu quy mô lớn. Đây là nền tảng mà mọi thứ khác được xây dựng trên đó. Và trung thực mà nói, loại công việc hạ tầng đó thu hút tôi theo cách mà phân tích thuần túy không còn nữa.

Tại sao tôi lại học công khai?

Viết về những gì tôi học là điều tôi đã tin tưởng sâu sắc. Nó buộc bạn phải thực sự hiểu một điều gì đó trước khi giải thích nó. Nó giữ cho bạn có trách nhiệm. Và theo thời gian, nó xây dựng một thứ mà một bản đơn xin việc đơn thuần không bao giờ làm được.

Nhưng tôi cũng sẽ trung thực về nỗi sợ hãi của mình, vì tôi nghĩ đó là ý chính của việc làm điều này công khai.

Tôi mắc hội chứng ham thích cái mới (shiny object syndrome). Tôi đã khám phá thiết kế đồ họa, hoạt hình, viết lách, marketing và CNTT trước khi dấn thân vào dữ liệu. Luôn có cái gì đó mới và thú vị lôi kéo sự chú ý của tôi. Data Engineering có thể dễ dàng bị thay thế bởi điều gì đó hào nhoáng tiếp theo trong nguồn cấp của tôi nếu tôi không chủ ý về nó.

Tính nhất quán là một vấn đề khác. Tôi làm việc 9-5 nơi tôi hầu như không chạm vào các công cụ tôi sẽ học. Không có sự củng cố tự nhiên tại nơi làm việc, không có đồng nghiệp nào để tôi có thể thảo luận các câu hỏi về Airflow. Tôi đang xây dựng điều này hoàn toàn theo thời gian của riêng mình, bên ngoài trách nhiệm công việc.

Đăng tải hành trình này là hệ thống trách nhiệm của tôi. Nếu tôi im lặng, bạn sẽ biết tôi đã trượt. Và tôi thà không muốn trượt.

Các công cụ trong lộ trình học tập

Tôi không bắt đầu từ con số không, điều này rất hữu ích. Tôi đã có kiến thức SQL từ cơ bản đến trung cấp từ công việc phân tích dữ liệu, các nguyên tắc cơ bản về Python và một số kinh nghiệm thực tế với Pandas. Điều đó cho tôi một nền tảng để xây dựng thay vì xây dựng lại từ đầu.

Dưới đây là toàn bộ stack học tập, theo thứ tự tôi sẽ giải quyết.

1. SQL: Sâu hơn Phân tích

Tôi biết SQL. Nhưng SQL cho phân tích và SQL cho kỹ thuật là hai loài vật khác nhau. Tôi sẽ đi sâu vào tối ưu hóa truy vấn, lập chỉ mục (indexing), làm việc với các tập dữ liệu rất lớn và viết SQL được xây dựng cho hiệu suất thay vì chỉ để khám phá.

Tại sao nó đứng đầu: Mọi thứ trong Data Engineering cuối cùng đều chạm đến SQL. Làm sắc bén nó ở đây trước khi thêm các công cụ phức tạp hơn sẽ làm cho phần còn lại của hành trình dễ dàng hơn.

2. Python: Từ Khám phá sang Sản xuất (Production-Ready)

Tôi có những kiến thức cơ bản. Pandas, NumPy, một chút Polars. Nhưng mã Python tôi viết chủ yếu sống trong các notebook (Jupyter). Mang tính khám phá, lộn xộn, không được xây dựng để tồn tại lâu. Mục tiêu bây giờ là viết mã sạch hơn, có cấu trúc hơn, có thể tái sử dụng. Hàm, mô-đun, xử lý lỗi, viết script. Loại Python mà bạn thực sự đặt trong một đường ống.

Tại sao nó quan trọng: Python là chất keo kết nối hầu hết các stack kỹ thuật dữ liệu hiện đại. Airflow sử dụng nó. PySpark được xây dựng trên nó. Làm quen với điều này là không thể thương lượng.

3. Git và GitHub: Kiểm soát phiên bản đúng cách

Thú thật là kiến thức Git của tôi hiện tại là "sao chép lệnh, hy vọng nó hoạt động". Điều đó phải thay đổi. Kiểm soát phiên bản là cơ bản để làm việc như một kỹ sư chứ không chỉ là một nhà phân tích. Tôi sẽ học về branching, pull requests và cách quản lý mã đúng cách trên các dự án.

Tại sao nó quan trọng: Mọi dự án tôi xây dựng từ đây đều sẽ được đưa lên GitHub. Đó là portfolio, đó là kỷ luật và đó là cách các nhóm thực sự làm việc.

4. Apache Spark và PySpark: Xử lý Big Data

Đây là nơi mọi thứ thực sự thú vị. Apache Spark là một trong những động cơ được sử dụng rộng rãi nhất để xử lý dữ liệu quy mô lớn. PySpark là API Python cho nó, có nghĩa là tôi có thể sử dụng một ngôn ngữ mà tôi đã quen thuộc để làm việc với dữ liệu phân tán ở quy mô lớn.

Bước nhảy từ Pandas sang Spark là một sự thay đổi tư duy. Pandas hoạt động trên một máy duy nhất. Spark được xây dựng để chạy trên các cụm (clusters). Học để suy nghĩ theo cách phân tán đó là một trong những kỹ năng phân biệt kỹ sư dữ liệu với nhà phân tích.

5. Apache Airflow: Điều phối các đường ống dữ liệu

Các đường ống dữ liệu không tự chạy. Bạn cần một cái gì đó để lên lịch cho chúng, giám sát chúng và xử lý lỗi một cách khéo léo. Đó là nơi các công cụ điều phối quy trình làm việc (workflow orchestration) xuất hiện, và Airflow là lựa chọn của tôi.

Tại sao nó quan trọng: Điều phối là thứ biến một tập hợp các script thành một đường ống thực tế. Hiểu về Airflow là hiểu cách các quy trình làm việc dữ liệu sản xuất được quản lý.

6. Databricks: Nền tảng dữ liệu

Tại một thời điểm nào đó, bạn cần chọn một nền tảng dữ liệu và đi sâu vào nó. Tôi sẽ chọn Databricks. Nó được xây dựng trên Spark, nhu cầu cao và có phiên bản Community Edition miễn phí cho phép bạn thực hành mà không cần trả tiền cho tín dụng đám mây.

Tại sao nó quan trọng: Nhà tuyển dụng muốn bạn có kinh nghiệm về nền tảng. Đi sâu vào một nền tảng có giá trị hơn là biết một chút về tất cả chúng.

Cấu trúc 12 tháng

Câu trả lời trung thực là điều này có thể mất nhiều hơn 12 tháng. Và tôi ổn với điều đó. Tôi thà mất 15 tháng và thực sự hiểu mình đang làm gì còn hơn vội vàng trong 12 tháng và ra đi với nền tảng lung lay.

Phương pháp chung là di chuyển qua từng kỹ năng theo thứ tự và không tiến lên cho đến khi tôi xây dựng được cái gì đó với những gì tôi vừa học. Các hướng dẫn thì tốt để định hướng, nhưng các dự án mới là nơi học tập thực sự diễn ra.

Kế hoạch của tôi là tài liệu hóa từng giai đoạn: các khái niệm, các dự án, sự thất vọng và những chiến thắng.

Về cam kết thời gian, ba đến bốn giờ mỗi ngày là mục tiêu. Một phần sẽ là học tập có cấu trúc. Một phần sẽ là xây dựng. Một phần sẽ là viết về những gì tôi vừa học, chính nó là một hình thức học tập.

Thành công trông như thế nào?

Kiếm được một vị trí kỹ sư dữ liệu lương cao là mục tiêu. Đó là thật và tôi không định che giấu nó.

Nhưng song song với đó, tôi muốn trở thành một tiếng nói đáng tin cậy trong không gian này. Một người xây dựng những điều đáng để nói chuyện, tài liệu hóa hành trình mà không lọc bỏ những phần khó khăn, và có thể làm cho con đường rõ ràng hơn một chút cho người đi sau.

Viết và học nuôi dưỡng nhau. Portfolio trở thành bằng chứng. Bằng chứng xây dựng thương hiệu. Đó là tầm nhìn.

Bài viết này là ngày bắt đầu chính thức của tôi. Tôi không đợi cho đến khi tôi cảm thấy sẵn sàng hoặc khi mọi thứ được lên kế hoạch hoàn hảo. Tôi bắt đầu ngay bây giờ, viết khi tôi đi, và để quá trình này công khai và một chút lộn xộn.