Pinterest áp dụng "vân tay nội dung" để loại bỏ URL trùng lặp trên hàng triệu tên miền

Công nghệ08 tháng 6, 2026·5 phút đọc

Pinterest đã giới thiệu hệ thống chuẩn hóa URL mới tên là MIQPS, sử dụng vân tay nội dung để xác định các tham số truy vấn quan trọng. Hệ thống này giúp giảm thiểu việc xử lý dữ liệu trùng lặp trên quy mô lớn bằng cách thay thế các quy tắc tĩnh bằng phân tích dữ liệu và phát hiện bất thường.

Pinterest áp dụng "vân tay nội dung" để loại bỏ URL trùng lặp trên hàng triệu tên miền

Các kỹ sư tại Pinterest đã phát triển một hệ thống chuẩn hóa URL gọi là Minimal Important Query Param Set (MIQPS) nhằm cải thiện khả năng loại bỏ nội dung trùng lặp trong quy trình thu thập dữ liệu quy mô lớn của nền tảng này.

Hệ thống được sử dụng để xác định xem các tham số truy vấn trong URL nào ảnh hưởng đến danh tính của trang web và cần được giữ lại, cũng như tham số nào là không cần thiết và có thể loại bỏ an toàn. Mục tiêu là giảm thiểu việc xử lý nội dung trùng lặp trên hàng triệu tên miền trong khi vẫn đảm bảo tính chính xác của dữ liệu được thu thập.

Ví dụ về nhiều URL trỏ đến cùng một sản phẩmVí dụ về nhiều URL trỏ đến cùng một sản phẩm

Thách thức về quy mô và chi phí

Hệ thống hạ tầng thu thập nội dung của Pinterest xử lý các URL từ nhiều trang web của thương nhân và nhà xuất bản khác nhau. Nhiều URL này thực chất trỏ đến cùng một trang cơ bản nhưng lại khác nhau do các tham số theo dõi (tracking), định danh chiến dịch, token phiên làm việc và các biến thể chuỗi truy vấn khác.

Mặc dù các hệ thống hạ tầng cuối cùng có thể phát hiện ra các bản sao, nhưng mỗi biến thể URL vẫn phải chịu chi phí riêng cho việc lấy dữ liệu (fetch), hiển thị (render) và lập chỉ mục (index), làm tăng gánh nặng hạ tầng ở quy mô lớn.

Shanhai Liao, Kỹ sư phần mềm tại Pinterest, đã chia sẻ về quy mô của vấn đề này trên LinkedIn:

"Đây là loại vấn đề nghe có vẻ tầm thường cho đến khi bạn vận hành ở quy mô của Pinterest, trên hàng triệu tên miền thương mại với các quy ước URL hoàn toàn khác nhau. Danh sách cho phép tĩnh hoạt động tốt cho các nền tảng lớn. Nhưng với phần 'đuôi dài', chúng tôi cần một giải pháp thông minh hơn."

Cách tiếp cận dựa trên dữ liệu của MIQPS

Để giải quyết vấn đề này, MIQPS thay thế các phương pháp chuẩn hóa URL dựa trên quy tắc truyền thống — vốn dựa vào danh sách cho phép, danh sách chặn hoặc heuristic cụ thể theo tên miền được duy trì thủ công. Các phương pháp này rất khó mở rộng cho hàng loạt tên miền không đồng nhất với cấu trúc URL không nhất quán.

Thay vào đó, MIQPS sử dụng cách tiếp cận dựa trên dữ liệu để đánh giá xem việc loại bỏ một tham số truy vấn có làm thay đổi nội dung hiển thị của trang hay không. Nếu sự thay đổi nội dung vượt quá ngưỡng xác định, tham số đó được phân loại là quan trọng và được giữ lại; ngược lại, nó được coi là nhiễu và bị loại bỏ trong quá trình chuẩn hóa.

Hệ thống hoạt động bằng cách trước tiên thu thập một kho dữ liệu lớn các URL từ các đường ống thu thập của Pinterest và nhóm chúng dựa trên các mẫu tham số truy vấn. Sau đó, nó hiển thị các trang và tạo ra các "vân tay nội dung" (content fingerprints) để so sánh tác động của việc loại bỏ từng tham số riêng lẻ.

Điều này cho phép hệ thống suy luận tầm quan trọng của tham số dựa trên hành vi nội dung quan sát được thay vì dựa trên các quy tắc định sẵn hoặc siêu dữ liệu như thẻ chuẩn (canonical tags). Pinterest lưu ý rằng các thẻ chuẩn thường bị thiếu, không nhất quán hoặc bị ô nhiễm bởi các tham số theo dõi, khiến chúng không đáng tin cậy cho việc loại bỏ trùng lặp quy mô lớn.

Kiến trúc và hiệu suất

MIQPS sử dụng một tập hợp nhỏ các tham số có thể điều chỉnh để kiểm soát ngưỡng không khớp và kích thước mẫu tối thiểu. Để cải thiện hiệu quả, hệ thống áp dụng logic thoát sớm (early exit) để ngừng đánh giá khi tỷ lệ không khớp vượt quá ngưỡng sau một số lượng thử nghiệm hạn chế, tránh việc hiển thị trang không cần thiết.

Nó cũng sử dụng mặc định thận trọng coi các tham số là không trung lập khi dữ liệu không đủ. Kết quả đầu ra là bản đồ tầm quan trọng của tham số được lưu trữ trong dịch vụ cấu hình và áp dụng tại thời gian chạy cùng với các quy tắc tĩnh.

Kiến trúc hệ thống MIQPSKiến trúc hệ thống MIQPS

MIQPS được bảo vệ bởi cơ chế phát hiện bất thường từ chối các bản cập nhật trong đó các tham số quan trọng bị hạ cấp, trong khi cho phép an toàn các bổ sung vào tập hợp không trung lập.

Kiến trúc tách biệt phân tích ngoại tuyến khỏi xử lý thời gian chạy. Việc hiển thị nội dung tốn kém và đánh giá tham số được thực hiện ngoại tuyến, trong khi các hệ thống thời gian chạy áp dụng các quy tắc được tính toán trước trong quá trình xử lý URL. Pinterest cho biết cấu trúc URL có xu hướng phát triển chậm, khiến việc tính toán ngoại tuyến trở thành sự đánh đổi thực tế giữa tính mới mẻ, chi phí và độ phức tạp vận hành cho các hệ thống thu thập quy mô lớn.

Chia sẻ:FacebookX
Nội dung tổng hợp bằng AI, mang tính tham khảo. Xem bài gốc ↗