Epicure: Mô hình AI nén toàn bộ tri thức ẩm thực nhân loại vào không gian số

Công nghệ27 tháng 5, 2026·3 phút đọc

Các nhà nghiên cứu đã giới thiệu Epicure, một họ mô hình nhúng nguyên liệu thực phẩm được huấn luyện trên hàng triệu công thức nấu ăn đa ngôn ngữ, bao gồm cả tiếng Việt. Bằng cách kết hợp ngữ cảnh nấu ăn và hóa học hương vị, mô hình này giúp máy tính hiểu sâu sắc về mối quan hệ giữa các nguyên liệu, mở đường cho các ứng dụng công nghệ thực phẩm tiên tiến.

Epicure: Mô hình AI nén toàn bộ tri thức ẩm thực nhân loại vào không gian số

Epicure: Mô hình AI nén toàn bộ tri thức ẩm thực nhân loại vào không gian số

Một bài báo nghiên cứu mới trên arXiv mang tên Epicure: Navigating the Emergent Geometry of Food Ingredient Embeddings đã tiết lộ cách trí tuệ nhân tạo (AI) có thể "nén" toàn bộ tri thức nấu ăn của con người vào một không gian vector nhỏ gọn. Nghiên cứu này không chỉ là bước tiến về mặt học thuật mà còn mở ra những khả năng thú vị trong việc ứng dụng AI vào lĩnh vực thực phẩm.

Dữ liệu khổng lồ và sự góp mặt của tiếng Việt

Nền tảng của Epicure là một bộ dữ liệu khổng lồ gồm 4,14 triệu công thức nấu ăn được tổng hợp từ 11 nguồn khác nhau. Điểm nổi bật là tính đa dạng ngôn ngữ của bộ dữ liệu này, bao gồm 7 thứ tiếng: Anh, Trung, Nga, Việt, Tây Ban Nha, Thổ Nhĩ Kỳ và Indonesia.

Việc đưa tiếng Việt vào tập huấn luyện là một tín hiệu tích cực, cho thấy mô hình này có khả năng nắm bắt được những sắc thái riêng biệt của ẩm thực Việt Nam, từ cách sử dụng các loại rau thơm cho đến kỹ thuật kết hợp gia vị.

Để xử lý dữ liệu, các tác giả đã sử dụng một quy trình tăng cường dựa trên Mô hình Ngôn ngữ Lớn (LLM) để chuẩn hóa các chuỗi nguyên liệu thô thành 1.790 mục chuẩn. Điều này giúp loại bỏ sự nhiễu loạn và đảm bảo tính nhất quán cho mô hình.

Ba biến thể mô hình: Cooc, Chem và Core

Epicure thực chất là một gia đình gồm ba mô hình "anh em" cùng sử dụng kiến trúc skip-gram nhưng khác nhau về cách thức khám phá dữ liệu (random-walk schema):

  • Cooc: Mô hình này chỉ đi trên đồ thị đồng xuất hiện (co-occurrence graph). Nó tập trung vào ngữ cảnh của các công thức nấu ăn, hiểu rằng nguyên liệu A thường xuất hiện cùng với nguyên liệu B.
  • Chem: Mô hình này chỉ đi trên các đường dẫn hóa học (metapaths) dựa trên cơ sở dữ liệu FlavorDB. Nó tập trung vào các hợp chất hương vị, hiểu rằng hai nguyên liệu có cùng hợp chất hóa học sẽ có hương vị tương đồng.
  • Core: Đây là biến thể kết hợp (blended), pha trộn cả ngữ cảnh công thức và hóa học hương vị, đặt mô hình ở một điểm cân bằng trên phổ từ hóa học đến ngữ cảnh nấu ăn.

Ứng dụng và ý nghĩa

Việc biểu diễn nguyên liệu thực phẩm dưới dạng các vector số (embeddings) cho phép máy tính thực hiện các phép toán toán học lên món ăn. Điều này có thể dẫn đến các ứng dụng thực tế mạnh mẽ:

  • Gợi ý thay thế nguyên liệu: AI có thể đề xuất thay thế một nguyên liệu bằng một nguyên liệu khác có tính chất hóa học hoặc ngữ cảnh tương tự.
  • Sáng tạo công thức: Hỗ trợ các đầu bếp hoặc ứng dụng nấu ăn tạo ra những món ăn mới lạ nhưng vẫn đảm bảo sự hài hòa về hương vị.
  • Phân tích hương vị: Hiểu rõ hơn về lý do tại sao một số cặp nguyên liệu lại "hợp" với nhau dựa trên cơ sở khoa học.

"Chúng tôi đặt mỗi mô hình ở một điểm riêng biệt trên phổ từ hóa học đến ngữ cảnh công thức nấu ăn," các tác giả Jakub Radzikowski và Josef Chen nhận định trong bài báo.

Nghiên cứu này minh chứng cho sức mạnh của việc kết hợp dữ liệu lớn (Big Data), xử lý ngôn ngữ tự nhiên (NLP) và kiến thức khoa học vật liệu để giải quyết những vấn đề thực tế trong đời sống hàng ngày.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗