Vibe coding có thể xây dựng pipeline dữ liệu, nhưng sẽ không thể giải thích nó sau sáu tháng

Các tác nhân AI đang tăng tốc kỹ thuật dữ liệu, nhưng "vibe coding" làm phân mảnh ngữ cảnh hệ thống. Mô hình phát triển dựa trên đặc tả (SDD) nổi lên như giải pháp, biến các quy tắc nghiệp vụ thành đặc tả có thể thực thi để duy trì bộ nhớ vận hành lâu dài cho cả con người và AI.

Các tác nhân lập trình AI đang tăng tốc đáng kể lĩnh vực kỹ thuật dữ liệu (data engineering) bằng cách tạo ra các phép biến đổi, pipeline, quy trình điều phối, bài kiểm tra xác thực và cấu hình hạ tầng chỉ từ các câu lệnh (prompt). Tuy nhiên, các nền tảng dữ liệu doanh nghiệp từ lâu đã vận hành trên các hệ thống phân mảnh, thuộc sở hữu của các đội nhóm khác nhau và được xây dựng trên các công nghệ khác nhau. Khi các hệ thống này phát triển độc lập, các tổ chức ngày càng gặp khó khăn với logic nghiệp vụ không nhất quán, triển khai trùng lặp, khó phân tích tác động hạ nguồn và các phụ thuộc ẩn rải rác trên nền tảng.

Sự trỗi dậy của "vibe coding" (lập trình dựa trên cảm hứng/câu lệnh) có thể làm trầm trọng thêm các vấn đề này khi ngữ cảnh vận hành, quyết định kiến trúc và kiến thức nghiệp vụ bị phân tán rải rác trên các câu lệnh, cuộc hội thoại, mã được tạo ra và các quy trình không kết nối, thay vì trở thành một phần của hệ thống.

Phát triển dựa trên đặc tả (Spec-driven development - SDD) đang nổi lên như một phương pháp để giải quyết thách thức này. Trong SDD, các câu lệnh, quy tắc nghiệp vụ, logic xác thực, hành vi điều phối và quy trình triển khai được chuyển đổi thành các đặc tả có thể thực thi và có phiên bản, trở thành một phần của chính hệ thống. Các đặc tả này đóng vai trò là bộ nhớ vận hành bền vững cho cả con người và các tác nhân AI, cho phép hệ thống phát triển nhất quán hơn qua các bản phát hành, đội nhóm và quy trình làm việc hỗ trợ bởi AI.

Vibe coding đơn thuần thiếu bộ nhớ hệ thống bền vững

Vibe coding hoạt động cực kỳ hiệu quả để tạo ra các triển khai riêng lẻ một cách nhanh chóng. Tuy nhiên, các câu lệnh vốn dĩ có tính tạm thời. Chúng chỉ ghi lại các giả định của kỹ sư, ngữ cảnh nghiệp vụ, logic triển khai và kiến thức hệ thống cho cuộc hội thoại và thời điểm cụ thể đó.

Trong thực tế, để các hệ thống do AI tạo ra hoạt động trơn tru, thường cần nhiều hơn là một câu lệnh đơn giản. Các kỹ sư liên tục cung cấp thông tin nền, quyết định kiến trúc, quy tắc nghiệp vụ, giả định về lược đồ, phụ thuộc hạ nguồn, ràng buộc vận hành, lịch sử gỡ lỗi và hướng dẫn triển khai trong suốt quá trình phát triển. Những ngữ cảnh này trở thành kiến thức vận hành thực sự đằng sau sự phát triển hỗ trợ bởi AI.

Tuy nhiên, trong hầu hết các quy trình vibe coding, thông tin này vẫn nằm rải rác trên các câu lệnh, cuộc hội thoại, vé Jira, tài liệu, lịch sử trò chuyện, mã được tạo ra và các quy trình không kết nối, thay vì trở thành một phần của chính hệ thống.

Điều này tạo ra một vấn đề lớn đối với kỹ thuật dữ liệu doanh nghiệp vì các nền tảng dữ liệu hiện đại vốn dĩ bị phân mảnh trên nhiều hệ thống liên kết với nhau, bao gồm pipeline nhập liệu, kho dữ liệu, khung điều phối, lớp ngữ nghĩa, API, bảng điều khiển và hệ thống học máy (ML). Khi càng nhiều logic và ngữ cảnh được nhúng bên trong các câu lệnh và các triển khai do AI tạo ra, các tổ chức dần mất đi khả năng hiển thị vào:

Ý định kiến trúc
Phụ thuộc hạ nguồn
Các giả định xác thực
Hành vi vận hành
Ngữ cảnh nghiệp vụ đằng sau các triển khai

Theo thời gian, chính hệ thống không còn chứa lý do đầy đủ đằng sau cách thức nó được xây dựng. Ngữ cảnh nghiệp vụ quan trọng, các giả định kiến trúc và kiến thức vận hành vẫn chủ yếu tồn tại trong phán đoán của con người và các cuộc hội thoại rời rạc thay vì nằm trong chính nền tảng. Vibe coding giúp triển khai nhanh hơn đáng kể, nhưng từ góc độ hệ thống, hiệu quả kỹ thuật tổng thể không cải thiện tương xứng vì phần lớn vòng đời phát triển vẫn phụ thuộc vào sự xác thực của con người, kiến thức lĩnh vực, sự phối hợp và việc ra quyết định.

Hơn nữa, các câu lệnh không phải là các tạo phẩm kỹ thuật có thể lặp lại một cách tự nhiên. Các hệ thống doanh nghiệp liên tục phát triển qua các bản phát hành, thay đổi lược đồ, cập nhật logic nghiệp vụ và phụ thuộc hạ nguồn. Các đội nhóm thường xuyên xem xét và tinh chỉnh hệ thống theo thời gian, nhưng các câu lệnh được tối ưu hóa để tạo cục bộ nhanh chóng thay vì cho sự phát triển lâu dài của hệ thống.

Chúng khó để:

Quản lý phiên bản nhất quán
Xác thực có hệ thống
Tái sử dụng trên các đội nhóm
Phối hợp thông qua quy trình CI/CD
Phát triển tăng dần theo thời gian

Thậm chí cùng một câu lệnh có thể không tạo ra cùng một triển khai một cách đáng tin cậy khi ngữ cảnh thay đổi trong tương lai.

Đây là lúc SDD bắt đầu chuyển dịch sang trung tâm của kỹ thuật dữ liệu hỗ trợ bởi AI. Thay vì để kiến thức vận hành bị phân tán trên các câu lệnh và cuộc hội thoại, SDD tích hợp ngữ cảnh nghiệp vụ, logic xác thực, hành vi chuyển đổi, yêu cầu điều phối và quy trình triển khai trực tiếp vào các đặc tả có thể thực thi trở thành một phần của chính hệ thống.

Hệ thống giờ đây có bộ nhớ bền vững về cách nó được thiết kế, tại sao các quyết định nhất định được đưa ra và cách các thành phần khác nhau được kết nối trên nền tảng. Điều này cho phép các đội nhóm và tác nhân AI lặp lại hệ thống một cách đáng tin cậy hơn theo thời gian đồng thời giảm thiểu sự phân mảnh trên các môi trường dữ liệu ngày càng phân tán.

Phát triển dựa trên đặc tả biến câu lệnh thành bộ nhớ hệ thống

Trong SDD, hệ thống được xây dựng xung quanh các đặc tả có thể thực thi thay vì chỉ dựa vào các câu lệnh và triển khai phối hợp lỏng lẻo. Thay vì coi đặc tả là tài liệu thụ động được viết sau khi phát triển, SDD coi chúng là các hợp đồng vận hành trực tiếp điều khiển việc tạo mã, xác thực, kiểm thử, điều phối và quy trình triển khai.

Theo nhiều cách, SDD mở rộng các ý tưởng từ Infrastructure-as-Code và GitOps vào kỹ thuật hỗ trợ bởi AI. Các đặc tả kết hợp định nghĩa hệ thống khai báo với quy trình triển khai có thể thực thi. Lớp khai báo cung cấp ngữ cảnh hệ thống, lược đồ, phụ thuộc, ràng buộc và yêu cầu vận hành, trong khi các hướng dẫn hướng tới quy trình hướng dẫn các tác nhân AI cách triển khai và phát triển hệ thống một cách nhất quán.

Một khi các ngữ cảnh, quy tắc và mẫu triển khai này được chuyển đổi thành các hợp đồng bền vững và có phiên bản được lưu trữ trong kho lưu trữ và tích hợp vào quy trình CI/CD, hệ thống trở nên dễ lặp lại và có thể quản lý hơn nhiều theo thời gian. Các đặc tả này thực sự trở thành bộ nhớ hệ thống dài hạn cho cả con người và tác nhân AI, cho phép hệ thống phát triển nhất quán qua các bản phát hành, đội nhóm và các quy trình phát triển hỗ trợ bởi AI ngày càng tăng.

Trong thực tế, cấu trúc của các đặc tả phần lớn phụ thuộc vào loại hệ thống và quy trình đang được triển khai. Tuy nhiên, các hệ thống dựa trên đặc tả thường bắt đầu với một "hiến pháp" nền tảng xác định các nguyên tắc và ràng buộc trên phạm vi dự án cần giữ nhất quán trên nền tảng, chẳng hạn như tiêu chuẩn công nghệ, quy ước đặt tên, quy tắc kiến trúc, chính sách quản trị và các yêu cầu hệ thống cốt lõi. Trên nền tảng này, nhiều lớp đặc tả phục vụ các mục đích vận hành khác nhau trong suốt vòng đời phát triển:

Đặc tả lược đồ xác định tính tương thích về cấu trúc
Đặc tả chuyển đổi xác định logic nghiệp vụ
Đặc tả xác thực xác định các quy tắc chất lượng
Đặc tả điều phối xác định hành vi thực thi
Đặc tả ngữ nghĩa xác định các định nghĩa nghiệp vụ được chia sẻ
Đặc tả quy trình AI xác định các hướng dẫn triển khai có thể tái sử dụng cho các tác nhân lập trình

Một đặc tả đơn giản hóa có thể trông như sau:

pipeline_spec:
  source:
    system: mysql
    table: order
  transformation:
    logic:
      - load_strategy: scd2
  target:
    platform: snowflake
    table: dim_order
  validation:
    primary_key: order_id

Các tệp quy trình bổ sung sau đó có thể cung cấp hướng dẫn triển khai có thể tái sử dụng cho các tác nhân lập trình:

Tạo mã nhập liệu Python cho dữ liệu khách hàng Salesforce.
Tạo các mô hình DBT triển khai logic SCD Loại 2.
Tạo quy trình làm việc Airflow để thực thi hàng giờ.
Tạo các bài kiểm tra xác thực cho tính tương thích hạ nguồn.

Các tài liệu đặc tả này thường được duy trì dưới dạng tạo phẩm vận hành dựa trên markdown được tạo và tinh chỉnh thông qua các quy trình làm việc hỗ trợ bởi AI. Các kỹ sư có thể cập nhật lặp lại các đặc tả, cung cấp ngữ cảnh nghiệp vụ bổ sung và cộng tác với các tác nhân lập trình để cải thiện logic triển khai, quy trình làm việc và hướng dẫn câu lệnh theo thời gian. So với các quy trình tài liệu truyền thống, việc tạo đặc tả hỗ trợ bởi AI nhanh hơn và thích ứng hơn nhiều.

Sự thay đổi quan trọng không chỉ là tài liệu tốt hơn. Các đặc tả trở thành ngữ cảnh vận hành có thể tái sử dụng cho phép hệ thống phát triển nhất quán qua các bản phát hành, đội nhóm và quy trình làm việc hỗ trợ bởi AI. Ý định kiến trúc, giả định nghiệp vụ và logic triển khai không còn biến mất vào các câu lệnh tạm thời và các triển khai không kết nối, mà thay vào đó trở thành kiến thức hệ thống bền vững được tích hợp trực tiếp vào vòng đời phát triển.

Tại sao phát triển dựa trên đặc tả lại phù hợp đặc biệt với kỹ thuật dữ liệu

SDD về mặt lý thuyết có thể được áp dụng trên nhiều lĩnh vực của kỹ thuật phần mềm, nhưng kỹ thuật dữ liệu đặc biệt phù hợp với mô hình này vì tính chất của các nền tảng dữ liệu hiện đại.

Các hệ thống dữ liệu doanh nghiệp tự nhiên trải dài trên nhiều công nghệ và lớp liên kết với nhau, bao gồm các hệ thống giao dịch, khung nhập liệu, nền tảng phát trực tuyến, kho dữ liệu, hệ thống điều phối, lớp ngữ nghĩa, API, bảng điều khiển và pipeline ML. Các kỹ sư dữ liệu thường xuyên làm việc trên các ngăn công nghệ dài và các hệ thống phân tán, nơi một thay đổi thượng nguồn duy nhất có thể ảnh hưởng đến nhiều người tiêu dùng hạ nguồn.

Các nền tảng dữ liệu doanh nghiệp cũng hỗ trợ nhiều đội nhóm và ứng dụng khác nhau trên các môi trường phân mảnh. Khi các hệ thống phát triển độc lập, việc hiểu đầy đủ tác động hạ nguồn của một thay đổi lược đồ hoặc logic nghiệp vụ thượng nguồn trở nên ngày càng khó khăn. Một sửa đổi có vẻ nhỏ có thể âm thầm làm hỏng các pipeline, bảng điều khiển, API, mô hình ngữ nghĩa hoặc quy trình làm việc học máy trên toàn nền tảng.

SDD có thể giải quyết sự phân mảnh này bằng cách giới thiệu các hợp đồng vận hành được chia sẻ và có phiên bản trên các hệ thống. Vì các lược đồ, phụ thuộc, quy tắc xác thực, logic chuyển đổi và hành vi điều phối được xác định rõ ràng trong các đặc tả, các đội nhóm và tác nhân AI có khả năng hiển thị tốt hơn nhiều về cách các hệ thống được kết nối và cách các thay đổi lan truyền trên nền tảng.

Ngoài ra, mục tiêu của kỹ thuật dữ liệu không chỉ là cung cấp pipeline nhanh chóng. Các đội nhóm cũng phải tối ưu hóa cho sự ổn định, khả năng mở rộng, tính nhất quán, khả năng bảo trì, độ tin cậy vận hành và chi phí hạ tầng của hệ thống.

Điều này đòi hỏi công việc thiết kế hệ thống và giải pháp đáng kể từ các kỹ sư. Các đội nhóm phải xác định ngăn công nghệ, tạo lược đồ, mẫu chuyển đổi, hành vi điều phối, quy tắc xác thực, chiến lược lưu trữ và các yêu cầu tương thích hạ nguồn một cách cẩn thận trên nền tảng.

Tuy nhiên, một khi các mẫu kiến trúc và vận hành này được thiết lập, phần lớn công việc triển khai trở nên lặp đi lặp lại và tiêu chuẩn hóa cao.

Ví dụ, sau khi xác định một mẫu nhập liệu và chuyển đổi có thể tái sử dụng cho dữ liệu khách hàng Salesforce, việc đưa một bảng mới vào có thể chỉ cần thêm định nghĩa bảng vào đặc tả, trong khi phần triển khai còn lại có thể được tạo tự động thông qua các đặc tả và quy trình làm việc hiện có tuân theo cùng một mẫu vận hành:

source:
  system: salesforce
  tables:
    - customer
    - order
    - product

Chỉ từ đặc tả này, các tác nhân lập trình có thể tạo ra các pipeline dữ liệu mới tuân theo cùng một mẫu triển khai được quản lý trên nền tảng. Sự kết hợp giữa thiết kế kiến trúc do con người điều khiển và các quy trình triển khai có thể lặp lại cao độ khiến kỹ thuật dữ liệu đặc biệt phù hợp với SDD.

Theo nhiều cách, kỹ thuật dữ liệu luôn hướng tới mức độ tự động hóa cao hơn, từ các khung ETL và pipeline dẫn hướng bởi siêu dữ liệu đến IaC và các hệ thống điều phối khai báo. SDD đại diện cho một bước nữa trong sự tiến hóa đó bằng cách kết hợp việc tạo dựa trên câu lệnh của AI với các hợp đồng vận hành xác định và có phiên bản.

Thay vì dựa hoàn toàn vào các câu lệnh hội thoại tạm thời hoặc các hệ thống mẫu cứng nhắc, SDD giới thiệu một lớp trung gian nơi các đặc tả có thể tái sử dụng cung cấp cấu trúc, sự phối hợp, xác thực và bộ nhớ hệ thống bền vững cho sự phát triển hỗ trợ bởi AI.

SDD thay đổi kỹ thuật dữ liệu hỗ trợ bởi AI như thế nào

SDD giới thiệu mức độ tự động hóa cao hơn nhiều vào kỹ thuật dữ liệu doanh nghiệp đồng thời giúp giảm các vấn đề phân mảnh mà các nền tảng dữ liệu hiện đại ngày càng phải đối mặt.

Vì các lược đồ, quy tắc nghiệp vụ, hành vi chuyển đổi, yêu cầu điều phối, logic xác thực và phụ thuộc hạ nguồn được xác định rõ ràng bên trong các đặc tả có thể tái sử dụng, các tác nhân lập trình có thể tạo và phát triển các phần lớn của việc triển khai một cách nhất quán trên nền tảng. Thay vì liên tục xây dựng lại các pipeline và quy trình làm việc từ các câu lệnh tạm thời và ngữ cảnh không kết nối, các đội nhóm có thể lặp lại hệ thống thông qua các hợp đồng vận hành được chia sẻ và các mẫu triển khai có thể tái sử dụng.

Điều này cải thiện đáng kể tính nhất quán, khả năng truy xuất nguồn gốc và sự phối hợp trên các môi trường phân tán. Sự tiến hóa của lược đồ trở nên dễ quản lý hơn, tác động hạ nguồn trở nên rõ ràng hơn và hệ thống có thể phát triển tăng dần thay vì thông qua các thế hệ triển khai không kết nối.

Đồng thời, các kỹ sư con người vẫn đóng vai trò thiết yếu trong vòng đời phát triển. Mặc dù các tác nhân AI có thể tự động hóa một phần lớn công việc triển khai, phán đoán của con người vẫn rất quan trọng để xác định logic nghiệp vụ, thiết kế kiến trúc, quản lý các sự đánh đổi, xác nhận tính chính xác và phối hợp sự tiến hóa của hệ thống trên toàn tổ chức.

Khi càng nhiều công việc triển khai trở nên do AI tạo ra, vai trò của kỹ thuật dữ liệu cũng bắt đầu chuyển dịch. Các kỹ sư dành ít thời gian hơn để viết các pipeline lặp lại và logic điều phối, và dành nhiều thời gian hơn để xác định đặc tả, thiết kế các mẫu vận hành có thể tái sử dụng, quản lý quy tắc xác thực và phối hợp ngữ cảnh nghiệp vụ trên các hệ thống.

Điều này cũng có thể dần dần giảm bớt một số ranh giới truyền thống giữa các đội nhóm kỹ thuật dữ liệu khác nhau. Vì việc triển khai trở nên ngày càng tiêu chuẩn hóa và được hỗ trợ bởi AI thông qua các đặc tả được chia sẻ, các tổ chức có thể phụ thuộc ít hơn vào các đội nhóm triển khai cụ thể cho từng nền tảng bị cô lập và nhiều hơn vào các hợp đồng vận hành được chia sẻ và các mẫu hệ thống có thể tái sử dụng.

Cuối cùng, SDD chuyển dịch kỹ thuật dữ liệu sang một mô hình hướng tới đặc tả và hệ thống nhiều hơn, nơi con người tập trung vào ý định, kiến trúc và sự phối hợp nghiệp vụ, trong khi các tác nhân AI ngày càng xử lý việc triển khai, kiểm thử và tạo vận hành ở quy mô lớn.