Pinterest giảm 90% chi phí AI nhờ "tùy biến sâu" mô hình nguồn mở Qwen3-VL
Pinterest đã giải quyết bài toán chi phí khổng lồ cho 620 triệu người dùng bằng cách loại bỏ lớp thị giác của mô hình Qwen3-VL và thay thế bằng các vector đặc trưng (embeddings) độc quyền. Chiến lược này giúp nền tảng giảm 90% chi phí vận hành, đồng thời tăng 30% độ chính xác và cải thiện đáng kể độ trễ.

Với quy mô 620 triệu người dùng hoạt động hàng tháng, việc gọi một mô hình tiên phong (frontier model) cho mọi gợi ý hình ảnh không phải là một chiến lược — đó đơn thuần là một hóa đơn khổng lồ. Matt Madrigal, Giám đốc Công nghệ (CTO) của Pinterest, đã giải quyết bài toán chi phí này bằng cách "tháo bỏ" lớp thị giác của mô hình Qwen3-VL và xây dựng lại nó bằng các embeddings (vector đặc trưng) độc quyền. Kết quả là chi phí đã được cắt giảm 90% trong khi độ chính xác tăng thêm 30%.
Đội ngũ của Madrigal đã đầu tư mạnh vào việc tùy biến các mô hình nguồn mở theo hướng "nội bộ hóa nền tảng".
"Nếu bạn có những dữ liệu thực sự độc đáo để tinh chỉnh (fine-tune) một mô hình nguồn mở, chất lượng dữ liệu sẽ vượt qua hoặc vượt qua kích thước mô hình," Madrigal giải thích trong podcast VB Beyond the Pilot gần đây.
Cách Pinterest tùy biến Qwen cho khám phá thị giác
Pinterest, với khoảng 620 triệu người dùng hoạt động hàng tháng, từ lâu đã áp dụng các mô hình nguồn mở cho tìm kiếm và khám phá thị giác, bắt đầu từ BERT của Google đến CLIP của OpenAI. Công ty đã tinh chỉnh mô hình Pin CLIP riêng biệt dựa trên nền tảng CLIP, kết hợp các visual embeddings và siêu dữ liệu hình ảnh độc quyền.
Trợ lý mua sắm hội thoại của Pinterest, Navigator 1, được xây dựng trên nền tảng Qwen3-VL và được tùy biến theo những "khá đáng kể". Về cơ bản, đội ngũ của Madrigal đã "tháo dỡ" lớp mã hóa thị giác (vision encoder layer) của Qwen và tinh chỉnh mô hình dựa trên các đa phương thức (multimodal) embeddings độc quyền. Điều này cho phép họ capturing siêu dữ liệu xung quanh các pin và hình ảnh, sau đó có thể được tính toán trước (precompute) ngoại tuyến và đào tạo lại thường xuyên trên các thông tin mới để mang lại trải nghiệm cá nhân hóa.
"Các mô hình nguồn mở, đặc biệt là với giấy phép Apache mở nơi bạn thực sự can thiệp vào nhiều trọng số (weights) mở và tùy chỉnh cho các trường hợp sử dụng độc đáo — đó là nơi chúng tôi thấy nguồn mở thực sự mạnh mẽ," Madrigal cho biết.
Việc mang lại embeddings riêng cho phép đội ngũ của ông có được ngữ cảnh xung quanh siêu dữ liệu, các pin và hình ảnh; đồng thời, đáng chú ý là mô hình hoạt động tốt hơn tại runtime (thời gian chạy) và inference (suy luận). Nếu không có các embeddings này, các nhà phát triển sẽ phải gọi và mã hóa từng hình ảnh trả về tại runtime, từng cái một. Điều này dẫn đến độ trễ "tệ hơn 20 lần" về mặt inference, theo Madrigal.
"Nếu là thứ gì đó quan trọng với người dùng cuối, thứ sẽ thúc đẩy sự tương tác, và phải mở rộng quy mô lên hơn 600 triệu người dùng hoạt động hàng tháng, chúng tôi có thể sẽ tự xây dựng nó hoặc tận dụng nguồn mở và tùy biến nó một cách mạnh mẽ nhất," ông nói.
Đồ thị thị hiếu (Taste Graph) bắt lấy những sở thích thay đổi
Để hướng dẫn người dùng từ cảm hứng đến mua hàng, đội ngũ của Madrigal đã xây dựng một "taste graph" (đồ thị thị hiếu): một đại diện động về những gì người dùng thực sự thích, không chỉ là những gì họ nhấp vào.
"Đó là đại diện cho thị hiếu đang thay đổi của hàng tỷ người," ông nói.
Mọi người tìm đến Google hoặc các công cụ tìm kiếm khác khi họ có hình dung rõ ràng về thứ mình muốn; Pinterest dành cho khi họ vẫn ở giai đoạn khám phá, Madrigal nói. Mục tiêu của Pinterest là khuyến khích "khám phá ngang" (lateral exploration) và chuyển đổi sự khám phá thành ý định (tức là nhấp vào quảng cáo hoặc thực hiện mua hàng).
Về mặt kiến trúc, hệ thống kết hợp cấu trúc đồ thị với học cách biểu diễn (representational learning). User embeddings bắt lấy thị hiếu đang phát triển của người dùng. Những thứ này được cập nhật liên tục dựa trên hoạt động, nội dung mới và các tín hiệu. "Đó không phải là một đồ thị xã hội," Madrigal nói. "Nó giống như một đồ thị sở thích hơn: Điều gì sẽ truyền cảm hứng cho bạn? Bạn định làm gì tiếp theo?"
Ví dụ, một người dùng có thể thích phong cách thiết kế giữa thế kỷ (mid-century modern); người khác có thể thích thẩm mỹ Nantucket. Những sở thích này sẽ được bắt giữ trong user embeddings, và đồ thị thị hiếu sẽ cung cấp các sản phẩm cụ thể, phù hợp như kết quả.
"Bạn đi từ phễu trên, khám phá cảm hứng, tất cả cách xuống phễu dưới, ý định mua hàng," Madrigal kết luận.
Bài viết liên quan

Công nghệ
Kia EV9 gặp vấn đề nghiêm trọng về pin: Trải nghiệm của người dùng và cuộc chờ đợi kéo dài
28 tháng 5, 2026

Công nghệ
CEO Palantir: 10% thế giới "ghét chúng tôi một cách chuyên nghiệp"
05 tháng 5, 2026

Công nghệ
OpenAI tặng ưu đãi Codex đặc biệt cho 8.000 developer sau khi tiệc GPT-5.5 cháy vé
05 tháng 5, 2026
