Agoda xây dựng hệ thống nội dung đa phương thức, kết nối hình ảnh và đánh giá khách sạn trên quy mô lớn

Phần mềm19 tháng 5, 2026·4 phút đọc

Agoda đã phát triển một hệ thống nội dung đa phương thức sử dụng phân loại chủ đề chung để thống nhất hình ảnh và đánh giá của khách sạn. Hệ thống xử lý hơn 700 triệu hình ảnh và đánh giá đa ngôn ngữ, sử dụng PySpark và Kubeflow để đảm bảo độ trễ thấp và khả năng mở rộng cao.

Agoda xây dựng hệ thống nội dung đa phương thức, kết nối hình ảnh và đánh giá khách sạn trên quy mô lớn

Agoda, nền tảng đặt phòng và du lịch trực tuyến hàng đầu, đã công bố kiến trúc hệ thống mới nhằm giải quyết thách thức về nội dung trong việc khám phá du lịch. Hệ thống mới này, được gọi là Agoda Multimodal Content System (Hệ thống nội dung đa phương thức), hoạt động như một cầu nối nối liền các hình ảnh khách sạn và những đánh giá của khách hàng bằng cách sử dụng một cấu trúc chủ đề chung.

Mục tiêu cốt lõi của dự án là kết nối nội dung trực quan và phản hồi bằng văn bản, giúp người dùng có thể hiểu rõ hơn về các thuộc tính của khách sạn một cách nhất quán. Hệ thống này vận hành ở quy mô cực lớn, xử lý hơn 700 triệu hình ảnh cùng hàng loạt đánh giá đa ngôn ngữ từ hơn 40 ngôn ngữ khác nhau.

Sơ đồ phân loại chủ đề chung của AgodaSơ đồ phân loại chủ đề chung của Agoda

Thách thức về sự nhất quán dữ liệu

Trước đây, hình ảnh và đánh giá của khách sạn được xử lý thông qua các quy trình riêng biệt với logic xếp hạng và truy xuất độc lập. Điều này gây ra khó khăn trong việc tương quan giữa những gì người dùng nhìn thấy trong ảnh và những gì được mô tả trong đánh giá, dẫn đến sự hiểu biết không nhất quán về các tiện nghi của khách sạn.

Aditya Kumar Ray, Phó Giám đốc tại Flyshop, đã chia sẻ trên LinkedIn về tầm quan trọng của vấn đề này:

"Trong công nghệ du lịch hiện đại, dữ liệu không còn chỉ là về hàng tồn kho và giá cả; mà đó là việc hiểu ngữ cảnh nội dung ở quy mô lớn."

Giải pháp: Phân loại chủ đề chung (Shared Topic Taxonomy)

Để giải quyết vấn đề này, Agoda đã thiết kế lại hệ thống với sự ra đời của một phân loại chủ đề chung. Thay vì sử dụng các đường ống dữ liệu phân mảnh, hệ thống mới sử dụng một lớp ngữ nghĩa (semantic layer) thống nhất.

Bằng cách giới thiệu các chủ đề như Hồ bơi (Pool), Bữa sáng (Breakfast), Chất lượng phòng (Room Quality)Vị trí (Location) làm các neo giữ chung, hệ thống ánh xạ cả tín hiệu trực quan và văn bản vào một không gian biểu diễn chung.

![Pipeline xử lý hình ảnh đa phương thức](https://imgopt.infoq.com/fit-in/3000x4000/filters:quality(85)/filters:no_upscale()/news/2026/05/agoda-multimodal-content-system/en/resources/1Screenshot 2026-05-16 at 6.20.21 PM-1778985846978.png)

Cơ chế hoạt động và Công nghệ

Quy trình xử lý diễn ra như sau:

  • Hình ảnh: Được xử lý bằng các mô hình phân loại để tạo ra các nhãn ngữ nghĩa như hồ bơi, view biển, khu vực ăn sáng... Sau đó, các nhãn này được chuẩn hóa thành các chủ đề chuẩn (canonical topics).
  • Đánh giá: Được xử lý thông qua các đường ống NLP (Xử lý ngôn ngữ tự nhiên) để trích xuất các cụm từ chính, đoạn trích đại diện và tín hiệu cảm xúc. Tất cả đều được căn chỉnh với cùng một hệ thống phân loại chủ đề.

Nhờ đó, mỗi chủ đề hoạt động như một gói đa phương thức được tổng hợp trước, bao gồm hình ảnh được tuyển chọn, đoạn trích đánh giá đa ngôn ngữ và siêu dữ liệu cảm xúc. Cách tiếp cận này tránh các phép nối (joins) tại thời điểm chạy (runtime) bằng cách tính toán trước các liên kết ngoại tuyến và phục vụ chúng thông qua một lớp truy xuất độ trễ thấp.

Hạ tầng và Hiệu suất

Hệ thống được điều phối bằng các công việc PySpark được quản lý qua Kubeflow, cho phép xử lý phân tán quy mô lớn cho các khối lượng công việc nhập dữ liệu và làm giàu dữ liệu trên hàng triệu đánh giá và hàng trăm triệu hình ảnh.

Các tạo tác (artifacts) ở cấp độ chủ đề kết quả được lưu trữ trong Couchbase, đóng vai trò là lớp phục vụ cho lưu lượng truy cập sản xuất với độ trễ thấp.

Thiết kế này tạo ra sự đánh đổi rõ ràng giữa tính mới mẻ (freshness) và hiệu suất bằng cách chuyển logic tương quan vào tính toán ngoại tuyến và dựa vào sự ổn định của hệ thống phân loại. Mặc dù điều này cải thiện độ trễ và khả năng mở rộng, nó cũng đòi hỏi sự quản trị cẩn thận các định nghĩa chủ đề để tránh sự trôi dạt (drift) giữa các ngôn ngữ và lĩnh vực.

Lớp chuẩn hóa đa ngôn ngữ đảm bảo việc ánh xạ nhất quán các nội dung tương đương về mặt ngữ nghĩa trên hơn 40 ngôn ngữ, yếu tố then chốt để duy trì tính nhất quán toàn cầu.

Agoda Engineering khẳng định rằng kiến trúc này có thể mở rộng, cho phép tích hợp các nguồn nội dung bổ sung như siêu dữ liệu tài sản có cấu trúc và phương tiện do người dùng tạo vào cùng một khung chủ đề, từ đó củng cố khả năng bao phủ ngữ nghĩa dài hạn.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗