Từ TF-IDF đến Transformers: Hành trình phát triển 4 thế hệ Tìm kiếm Ngữ nghĩa

Bài viết này đi sâu vào quá trình tiến hóa của tìm kiếm ngữ nghĩa từ những thuật toán đơn giản như TF-IDF cho đến các mô hình Transformer hiện đại. Thông qua ví dụ thực tế về phân tích bình luận hội họa bằng Python, chúng ta sẽ khám phá bốn phương pháp tiếp cận khác nhau để máy tính hiểu ý nghĩa của văn bản.

Tìm kiếm ngữ nghĩa (semantic search) không xuất hiện một sớm một chiều. Ngày nay, các hệ thống dựa trên Transformer có khả năng nắm bắt bối cảnh và những mối quan hệ tinh tế giữa các ý tưởng một cách kỳ diệu. Tuy nhiên, nguồn gốc của các hệ thống này thực chất là một quá trình tiến hóa từng bước. Trước khi có embeddings, transformers hay các mô hình ngôn ngữ lớn (LLM), các nhà nghiên cứu đã sử dụng khớp từ khóa, vector TF–IDF và các phương pháp học máy truyền thống để phân tích văn bản.

Nhiều ý tưởng từ thời kỳ đầu chưa bao giờ thực sự biến mất. Trên thực tế, các hệ thống hiện đại vẫn được xây dựng dựa trên những khái niệm được phát triển từ hàng thập kỷ trước. Lĩnh vực này phát triển theo từng lớp, trong đó mỗi thế hệ giải quyết một số vấn đề nhưng đồng thời cũng bộc lộ những thách thức mới.

Trong bài viết này, chúng ta sẽ khám phá quá trình tiến hóa đó thông qua một ví dụ cụ thể: so sánh một bài phê bình nghệ thuật của sinh viên với các bài phê bình của các chuyên gia về cùng một bức tranh. Thay vì nhảy ngay vào embeddings và transformers, chúng ta sẽ xây dựng một chuỗi các hệ thống truy xuất ngày càng tinh vi hơn, qua đó phân tích cả điểm mạnh và hạn chế của chúng.

Chúng ta sẽ bao gồm bốn giai đoạn chính trong sự tiến hóa của tìm kiếm ngữ nghĩa:

Tính năng truy xuất thủ công + TF–IDF
Học máy cổ điển cho xếp hạng ngữ nghĩa
Tìm kiếm ngữ nghĩa dựa trên Embedding
Fine-tuning Transformer

Phương pháp 1: Truy xuất dựa trên quy tắc và xếp hạng TF–IDF

Chúng ta bắt đầu với một trong những cách tiếp cận kinh điển và dễ diễn giải nhất: kết hợp xếp hạng TF–IDF với một tập hợp các tính năng truy xuất được thiết kế thủ công. Mặc dù đơn giản so với các hệ thống deep learning hiện đại, phương pháp này nắm giữ nhiều ý tưởng cốt lõi của truy xuất tài liệu và tính điểm tương tự.

Nền tảng của phương pháp này là TF–IDF (Term Frequency–Inverse Document Frequency), một kỹ thuật cổ điển để chuyển đổi văn bản thành các vector số học. Sau khi fit TF–IDF vectorizer lên các bài phê bình của chuyên gia, hệ thống tạo ra một ma trận tài liệu-thuật ngữ thưa (sparse document-term matrix).

Sau khi vector hóa, độ tương đồng cosin (cosine similarity) được sử dụng để đo độ tương đồng giữa các tài liệu. Tuy nhiên, trong thực tế, độ tương đồng TF–IDF một mình thường là chưa đủ. Để cải thiện chất lượng truy xuất, chúng ta kết hợp nó với một số tính năng heuristic bổ sung:

Sự trùng lặp từ khóa — đo lường bao nhiêu từ quan trọng được chia sẻ giữa các bài phê bình.
Chuẩn hóa độ dài — thưởng cho các bài phê bình có mức độ chi tiết mô tả ý nghĩa mà không thiên lệch quá nhiều về độ dài văn bản.
Trọng số mới nhất — ưu tiên nhẹ nhàng các bài phê bình mới hơn bằng suy giảm thời gian theo cấp số nhân.

Điểm xếp hạng cuối cùng là sự kết hợp có trọng số của các đặc điểm này.

Sơ đồ tiến hóa các phương pháp tìm kiếm ngữ nghĩa

Điểm mạnh lớn nhất của cách tiếp cận này là tính có thể diễn giải (interpretability). Mọi phần của quy trình xếp hạng đều hiển thị và dễ hiểu. Tuy nhiên, hạn chế của TF–IDF cũng bắt đầu lộ rõ: phương pháp này chủ yếu bắt gặp các mẫu từ vựng ở bề mặt hơn là ý nghĩa ngữ nghĩa sâu sắc. Ví dụ, cụm từ "sử dụng ánh sáng kịch tính" và "hiệu ứng chiaroscuro mạnh" có thể đề cập đến cùng một ý tưởng nghệ thuật nhưng chia sẻ rất ít từ ngữ giống hệt nhau.

Phương pháp 2: Học máy cổ điển với đặc điểm TF-IDF

Bước tiến hóa tiếp theo thay thế các quy tắc tính điểm thủ công bằng học máy có giám sát (supervised machine learning). Thay vì quyết định thủ công mức độ quan trọng của TF–IDF hay sự trùng lặp từ khóa, chúng ta cho phép mô hình học các mẫu hữu ích trực tiếp từ các ví dụ đã được gán nhãn.

Đối với phương pháp này, chúng ta sử dụng mô hình Hồi quy Logistic (Logistic Regression). Đây là một trong những phương pháp học máy cổ điển cho phân loại. Thay vì sử dụng các quy tắc do con người thiết kế, mô hình học các mẫu trực tiếp từ các ví dụ. Nó học xem những từ và phong cách viết nào phổ biến hơn trong các bài phê bình của chuyên gia, sau đó sử dụng các mẫu này để đánh giá các bài phê bình mới một cách tự động.

Một khía cạnh thú vị của Hồi quy Logistic là tính có thể diễn giải. Vì mô hình học các hệ số số học cho từng đặc điểm TF–IDF, chúng ta có thể kiểm tra trực tiếp xem những từ và cụm từ nào ảnh hưởng đến các quyết định phân loại. Trong thực nghiệm, bộ phân loại đã gán trọng số cao hơn cho các thuật ngữ như "vị trí" (placement), "cảm xúc" (emotional), "độ sâu" (depth), "tâm lý" (psychological). Những cụm từ này thường xuất hiện trong các bài phê bình mang tính chuyên gia thảo luận về cấu trúc và ý nghĩa chi tiết.

Tuy nhiên, chúng ta cần cẩn trọng không phóng đại quá những gì mô hình đang làm. Mô hình không thực sự diễn giải tác phẩm nghệ thuật hay chiêm nghiệm biểu tượng của nó theo cách mà một chuyên gia con người sẽ làm. Nó chỉ đang xác định các mẫu trong ngôn ngữ được sử dụng trong các bài phê bình. Vấn đề này đã dẫn các nhà nghiên cứu hướng tới các phương pháp dựa trên embedding cố gắng nắm bắt ý nghĩa thay vì chỉ khớp các từ ngữ.

Phương pháp 3: Tìm kiếm ngữ nghĩa dựa trên Embedding

Bước tiến hóa lớn tiếp theo trong tìm kiếm ngữ nghĩa đi xa hơn TF–IDF và việc đếm từ đơn giản. Thay vì đại diện cho văn bản dưới dạng tần suất từ, các hệ thống hiện đại sử dụng các vector nhúng ngữ nghĩa dày (dense semantic embeddings) được tạo ra bởi các mô hình ngôn ngữ dựa trên transformer.

Đây là giai đoạn hệ thống bắt đầu vượt ra ngoài vốn từ vựng đơn giản và bắt đầu nắm bắt ý nghĩa thực tế. Để tạo các embeddings, chúng ta sử dụng mô hình Sentence Transformer từ hệ sinh thái Hugging Face. Sentence Transformers chuyển đổi toàn bộ câu hoặc tài liệu thành các vector số học dày. Các vector này được thiết kế để nắm bắt ý nghĩa của văn bản và mối quan hệ giữa các phần viết khác nhau.

Ví dụ, các cụm từ như "sử dụng ánh sáng kịch tính", "chiếu sáng cẩn thận", và "hiệu ứng chiaroscuro mạnh" trông rất khác nhau về mặt từ vựng, nhưng chúng diễn đạt các ý tưởng nghệ thuật liên quan chặt chẽ. Không giống như TF–IDF, các mô hình embedding thường có thể nhận ra các mối quan hệ ngữ nghĩa này.

Biểu đồ PCA minh họa không gian nhúng của các bài phê bình

Biểu đồ PCA (Phân tích thành phần chính) ở trên minh họa cách các bài phê bình của sinh viên và chuyên gia được phân bố trong không gian hai chiều. Nó cho thấy các bài phê bình sinh viên có phong cách "kịch tính qua ánh sáng" nằm gần các bài phê bình chuyên gia thảo luận về cùng một chủ đề, bất kể việc chúng sử dụng những từ ngữ khác nhau. Điểm xếp hạng Expert-Likeness cũng đồng thuận với biểu đồ PCA, cho thấy khả năng của phương pháp này trong việc tìm kiếm sự tương đồng về mặt ý nghĩa.

Ở giai đoạn này, mặc dù đã chuyển từ khớp từ khóa sang việc hiểu ý nghĩa, các embedding vẫn được cố định. Giai đoạn tiếp theo sẽ giới thiệu các mô hình transformer có thể điều chỉnh sự hiểu biết dựa trên ngữ cảnh xung quanh.

Phương pháp 4: Mô hình Transformer đã được Fine-tuning

Giai đoạn cuối cùng giới thiệu các mô hình transformer đã được tinh chỉnh (fine-tuned). Ở phương pháp 3, chúng ta sử dụng Sentence Transformer để so sánh các bài phê bình dựa trên tương đồng ngữ nghĩa. Tại đây, chúng ta đi xa hơn bằng cách huấn luyện mô hình trực tiếp trên các bài phê bình chuyên gia và người mới bắt đầu đã được gán nhãn.

Cụ thể, chúng ta fine-tune một mô hình DistilBERT được huấn luyện trước. DistilBERT là phiên bản nhỏ hơn và nhanh hơn của BERT. Trong phương pháp này, thay vì học ngôn ngữ từ con số không, mô hình bắt đầu với kiến thức từ một lượng lớn văn bản và sau đó thích ứng với nhiệm vụ phân loại bài phê bình của chúng ta. Quá trình này được gọi là chuyển giao học tập (transfer learning).

Mô hình transformer sử dụng cơ chế chú ý (attention mechanism) giúp mô hình hiểu các mối quan hệ giữa các từ trong một câu. Điều này khác biệt so với Hồi quy Logistic chỉ nhìn vào sự hiện diện của các từ cụ thể. Transformer phân tích cách các ý tưởng được kết nối trên toàn câu và xem liệu bài phê bình có cho thấy lý luận sâu sắc hơn hay không.

Thí nghiệm đã chỉ ra một điểm thú vị: khi mô hình mới chỉ được huấn luyện 30 epochs, nó có thể dựa quá nhiều vào từ vựng "hoa mỹ" để phân loại chuyên gia. Tuy nhiên, sau khi fine-tuning thêm 100 epochs, mô hình đã đặt trọng số lớn hơn vào các mẫu ngữ cảnh và phân tích tổng thể hơn là chỉ dựa vào từ khóa đơn lẻ. Điều này làm nổi bật cả điểm mạnh và hạn chế của các mô hình transformer: chúng có thể nắm bắt ý nghĩa vượt ra ngoài việc khớp từ khóa, nhưng cũng có thể trở nên quá tự tin (overfitting) khi dữ liệu huấn luyện là ít.

Kết luận

Trong bài viết này, chúng ta đã khám phá bốn cách tiếp cận thực tế đối với tìm kiếm ngữ nghĩa, di chuyển từ truy xuất TF–IDF cổ điển đến các mô hình Transformer hiện đại. Sự tiến hóa này minh họa cho sự chuyển đổi trong AI: từ các hệ thống do con người thiết kế, minh bạch, sang các mô hình ngày càng thông minh có khả năng học các biểu diễn trừu tượng của ý nghĩa trực tiếp từ dữ liệu.

Các phương pháp cổ điển vẫn đơn giản, nhanh chóng và dễ diễn giải. Các mô hình embedding nắm bắt tương đồng ngữ nghĩa hiệu quả ngay cả với các bộ dữ liệu nhỏ hơn. Transformers cung cấp sự hiểu biết ngữ cảnh sâu hơn nhưng thường đòi hỏi nhiều dữ liệu được gán nhãn hơn để tổng quát hóa một cách đáng tin cậy. Mục tiêu cuối cùng vẫn không thay đổi: giúp máy tính hiểu tốt hơn ngôn ngữ con người.