Dun & Bradstreet xây dựng lại cơ sở dữ liệu 642 triệu doanh nghiệp dành riêng cho AI Agent

Dun & Bradstreet đã phải xây dựng lại toàn bộ hệ thống cơ sở dữ liệu thương mại khổng lồ của mình vì kiến trúc cũ không còn phù hợp với các tác nhân AI. Việc chuyển đổi này tập trung vào tốc độ xử lý thời gian thực, mối quan hệ động và xác thực danh tính máy móc để đáp ứng nhu cầu tự động hóa của doanh nghiệp.

Dun & Bradstreet (D&B) đã dành hơn 180 năm để xây dựng một cơ sở dữ liệu thương mại toàn diện. Đồ thị thương mại (Commercial Graph) của họ, bao gồm 642 triệu doanh nghiệp cùng các mối quan hệ, hệ thống phân cấp và hồ sơ rủi ro, ban đầu được thiết kế dành cho con người. Các chuyên gia phân tích tín dụng, quản lý rủi ro và nhân viên bán hàng có thể chờ đợi kết quả truy vấn và tự mình xử lý các trường hợp khớp thực thể mơ hồ. Tuy nhiên, các tác nhân AI (AI agents) lại không thể làm được những điều đó.

Khi khách hàng của D&B bắt đầu tích hợp tác nhân AI vào các quy trình tín dụng, mua sắm và chuỗi cung ứng, Commercial Graph vốn đã phục vụ gần 200.000 khách hàng toàn cầu lại trở thành vấn đề. Các hệ thống được xây dựng để phục vụ chuyên gia phân tích con người có kiến trúc sai lệch hoàn toàn với máy móc. Do đó, D&B đã phải xây dựng lại từ đầu.

"Chúng ta cần coi các tác nhân là một nhóm khách hàng mới, chuyển đổi từ các chuyên gia phân tích tín dụng hoặc nhân viên bán hàng truyền thống sang việc phục vụ cả các tác nhân của khách hàng này," Gary Kotovets, Giám đốc Vận hành Dữ liệu và Phân tích tại Dun & Bradstreet, chia sẻ với VentureBeat.

Vấn đề phát sinh khi AI Agent bắt đầu truy vấn

Commercial Graph thực chất không phải là một cơ sở dữ liệu đơn lẻ. Nó là một tập hợp các hệ thống riêng biệt được xây dựng cho các trường hợp sử dụng và thị trường khác nhau, được kết nối với nhau bằng các tích hợp tùy chỉnh. Các chuyên gia phân tích con người có thể điều hướng sự phân mảnh này thông qua các truy vấn SQL hoặc giao diện được xây dựng sẵn. Nhưng các tác nhân AI thì không thể.

Quy mô của dữ liệu nền tảng càng làm trầm trọng thêm vấn đề. Trong vòng năm năm, cơ sở dữ liệu này đã gần như tăng gấp đôi, từ hơn 300 triệu lên hơn 642 triệu hồ sơ doanh nghiệp, với 11.000 trường dữ liệu cho mỗi hồ sơ. Hiện tại, công ty thực hiện khoảng 100 tỷ kiểm tra chất lượng dữ liệu mỗi tháng khi các hồ sơ di chuyển qua hệ thống. Việc truy vấn dữ liệu ở độ trễ dưới giây (sub-second latency) mà các tác nhân yêu cầu trên một kiến trúc phân mảnh là điều không khả thi.

Các mối quan hệ mà đồ thị này theo dõi cũng thuộc loại sai. Các hệ thống cũ ghi lại các kết nối tĩnh giữa các thực thể. Một CEO được liên kết với một công ty. Đó là tất cả. Tuy nhiên, các tác nhân làm việc về đánh giá tín dụng hoặc rủi ro của bên thứ ba cần các mối quan hệ động: khi CEO đó rời đi sang một công ty mới, hồ sơ theo dõi của họ sẽ thuộc về tổ chức nào? Khi một công ty con thay đổi quyền sở hữu, điều đó lan truyền như thế nào qua hệ thống phân cấp doanh nghiệp? Những câu hỏi này trước đây cần công việc phân tích tùy chỉnh, nhưng các tác nhân AI không thể chờ đợi điều đó.

Vấn đề rộng lớn hơn này không phải là độc quyền của D&B. Kotovets cho biết ông đã nói chuyện với hàng trăm Giám đốc Dữ liệu (CDO) và Giám đốc Thông tin (CIO) trong sáu tháng qua và liên tục nghe thấy cùng một rào cản: họ không thể xây dựng những gì họ muốn trong AI vì nền tảng dữ liệu của họ chưa được chuẩn hóa, chuẩn tắc hóa hoặc có thể truy vấn bởi tác nhân.

Những gì D&B thực sự đã xây dựng

Quá trình xây dựng lại bắt đầu bằng sự hợp nhất. D&B đã di chuyển các cơ sở dữ liệu phân mảnh của mình sang cơ sở hạ tầng đám mây, thiết kế lại lược đồ (schema) nền tảng và xây dựng một lớp data fabric (lưới vải dữ liệu) chuẩn hóa các hồ sơ trên các thị trường trong khi vẫn giữ nguyên các yêu cầu tuân thủ khu vực. Kết quả là một đồ thị tri thức thống nhất theo dõi hàng tỷ mối quan hệ trên 642 triệu công ty, được cập nhật và làm phong phú liên tục bởi xử lý dữ liệu do AI điều khiển.

Trên nền đồ thị đó, D&B đã xây dựng một lớp truy cập có cấu trúc dành cho các tác nhân. Việc truy cập SQL thô ở khối lượng truy vấn và yêu cầu độ trễ của tác nhân không phải là câu trả lời. Thay vào đó, D&B đã tạo ra một bộ công cụ và kỹ năng có sẵn thông qua MCP (Model Context Protocol) đóng gói dữ liệu với ngữ cảnh và định tuyến tác nhân đến đúng hồ sơ cho các truy vấn cụ thể. Một động cơ khớp và giải quyết thực thể (entity resolution engine) đứng sau mọi truy vấn, đảm bảo rằng khi một tác nhân hỏi về một công ty, câu trả lời sẽ giải quyết thành một thực thể cụ thể đã được xác minh thay vì chỉ là một khớp tên.

D&B giải quyết vấn đề danh tính tác nhân từ cả hai hướng

Việc xây dựng lại đồ thị và thêm quyền truy cập MCP đã giải quyết vấn đề truy xuất dữ liệu. Nhưng nó không giải quyết vấn đề danh tính. Các tác nhân không phải là con người, và mô hình xác thực được xây dựng cho người dùng không thể mở rộng sang máy móc.

D&B đã xây dựng một mô hình đăng ký mới cho các tác nhân. Chúng phải được ánh xạ tới một địa chỉ IP đã được xác minh và đăng ký một khóa truy cập riêng lẻ, được coi là một danh tính được xác thực trong cùng một đường ống với người dùng.

"Chúng tôi thực sự có một khái niệm 'Know Your Agent' (Hiểu biết về Tác nhân), tương tự như 'know your customer' (KYC), thực hiện các xác minh bổ sung đó," Kotovets nói.

Điều đó giải quyết vấn đề đầu vào: biết tác nhân thuộc về công ty nào và dữ liệu nào nó có quyền truy vấn. Nhưng D&B cũng xây dựng cho vấn đề đầu ra: điều gì xảy ra khi quy trình làm việc đa tác nhân (multi-agent workflow) của chính khách hàng bị mất dấu theo dõi công ty nào họ đang phân tích.

Trong một quy trình làm việc kết nối một tác nhân kiểm tra tín dụng, một tác nhân KYC và một tác nhân rủi ro bên thứ ba, mỗi tác nhân truy vấn D&B ở một bước khác nhau. Nếu không có cơ chế xác nhận rằng tất cả chúng đều tham chiếu đến cùng một thực thể, quy trình làm việc có thể hoàn thành trong khi hoạt động trên các hồ sơ khác biệt.

"Chúng phải quay lại tác nhân xác minh của chúng tôi để đảm bảo rằng chúng vẫn đang nói chuyện với nhau về cùng một thực thể," Kotovets nói. "Nó giống như một cái bắt tay kỹ thuật số theo một nghĩa nào đó."

Tác nhân xác minh doanh nghiệp của D&B có thể được nhúng vào bất kỳ quy trình làm việc nào như một điểm tham chiếu bền vững và có sẵn trên giao thức A2A của Google bất kể công cụ điều phối nào khách hàng sử dụng.

Bốn điều doanh nghiệp cần làm đúng trước khi triển khai AI Agent

Quá trình xây dựng lại đã phơi bày các yêu cầu vượt ra ngoài ngăn xếp công nghệ của riêng D&B.

Nền tảng dữ liệu phải đi trước hạ tầng tác nhân. Các CDO và CIO mà Kotovets nói chuyện trong sáu tháng qua liên tục vấp phải cùng một bức tường: họ không thể xây dựng những gì họ muốn trong AI cho đến khi dữ liệu của họ sạch, chuẩn hóa và hợp nhất. D&B đã có nền tảng đó rồi. Hầu hết các doanh nghiệp thì không, và họ sẽ cảm thấy điều này.
Thiết kế cho các mối quan hệ động, không phải tĩnh. Các hệ thống dữ liệu doanh nghiệp thường ghi lại các kết nối tại một thời điểm: một người thuộc về một công ty, một tài sản thuộc về một công ty con. Các tác nhân làm việc về các quyết định tín dụng, rủi ro hoặc chuỗi cung ứng cần suy luận qua các mối quan hệ thay đổi theo thời gian. Nếu dữ liệu nền tảng chỉ bắt được đường kết nối tĩnh, tác nhân cũng sẽ như vậy.
Xây dựng các kiểm tra tính nhất quán của thực thể vào quy trình làm việc đa tác nhân. Khi nhiều tác nhân chạm vào cùng một thực thể ở các bước khác nhau, không có đảm bảo rằng tất cả chúng đều tham chiếu đến cùng một hồ sơ vào thời điểm quy trình làm việc hoàn thành. Khoảng trống này cần được thiết kế một cách rõ ràng. Xác minh thực thể là một yêu cầu thiết kế quy trình làm việc, không phải là một rào chắn bổ sung tùy chọn.
Nhúng dòng dữ liệu (lineage) ngay từ đầu, không phải như một điều suy nghĩ sau này. Mọi câu trả lời do tác nhân tạo ra đều phải mang theo một đường dẫn có thể truy xuất ngược lại nguồn gốc của nó. Trong các quyết định tín dụng, rủi ro và chuỗi cung ứng, chi phí của một lỗi là cụ thể. Dòng dữ liệu cần được xây dựng trước khi mở rộng quy mô, không phải thêm vào sau khi các vấn đề xuất hiện.

"Bạn luôn có thể nhấp và xem nó đến từ đâu, và xác thực nó tất cả cách trở lại nguồn gốc ban đầu," Kotovets nói. "Đó là chìa khóa đối với chúng tôi trong việc mở khóa nhiều khả năng khác, bởi vì chúng tôi có mức độ chắc chắn đó trong những gì chúng tôi đã làm."