Chuyển đổi WeOutside246 từ GPT-5 sang Local Models trên Mac Mini M4: Bài học thực tế

Bài viết này chia sẻ hành trình chuyển đổi tác nhân AI WeOutside246 từ các mô hình đám mây sang các mô hình cục bộ trên Mac Mini M4 cơ bản. Khám phá cách Gemma 4 và Qwen 3.5 hoạt động trong việc trích xuất sự kiện đa phương thức và tại sao AI cục bộ giờ đã khả thi cho các sản phẩm thực tế.

Gần đây, tôi đã dành nhiều thời gian để trả lời một câu hỏi mà tôi nghĩ nhiều nhà xây dựng AI độc lập (indie AI builders) sẽ sớm phải đối mặt:

Liệu tôi có thể ngừng thuê "trí tuệ" từ các nhà cung cấp đám mây lớn (hyperscalers) và tự chạy nó không?

Trong trường hợp của tôi, dự án đó là WeOutside246 — một tác nhân tự chủ mà tôi xây dựng để theo dõi nhịp sống tại Barbados. Nó theo dõi hơn 900 tài khoản Instagram, đọc hàng nghìn bài đăng, xem xét hình ảnh và cố gắng xác định xem đó có phải là một sự kiện sắp tới trên đảo hay chỉ là tiếng ồn (noise). Và bởi "tiếng ồn", tôi muốn nói đến những thứ trông giống sự kiện nhưng thực sự không hữu ích cho một trang web liệt kê sự kiện: các bài tóm tắt (recaps), bài tặng quà (giveaways), lịch thi đấu thể thao, ảnh phong cách sống, bài đăng hoài niệm, bài viết từ các đảo khác, v.v.

Đây không hẳn là một vấn đề đồ chơi.

Những chi tiết nhỏ ở đây rất quan trọng. Một mô hình nhầm lẫn một bài tóm tắt cuối tuần trước với một bữa tiệc diễn ra vào thứ Sáu tới không chỉ là sai lệch một chút. Nó làm cho trang web tồi tệ hơn.

Vì vậy, bài viết này là một bản tường thuật kỹ thuật về những gì tôi đã làm, những gì tôi đã học được, và cách thế hệ mô hình cục bộ mới nhất hoạt động khi tôi chuyển quá trình đánh giá sang một chiếc Mac Mini M4 cấu hình cơ bản với 16GB RAM.

Trang chủ WeOutside246.com hiển thị các sự kiện gần đây

Bối cảnh

Như một số bạn đã biết, WeOutside246 là một hệ thống tự động để phát hiện các sự kiện tại Barbados từ các bài đăng Instagram.

Ở mức độ cao, quy trình xử lý (pipeline) trông như sau:

Theo dõi hàng trăm tài khoản Barbados liên quan
Thu thập văn bản, siêu dữ liệu và hình ảnh từ bài đăng
Yêu cầu mô hình phân loại xem bài đăng có phải là một sự kiện giải trí sắp tới tại Barbados hay không
Trích xuất các trường có cấu trúc như tên sự kiện, ngày tháng, địa điểm, nghệ sĩ và loại hình
Loại bỏ trùng lặp và xếp hạng người đăng
Xuất bản kết quả lên trang web

Vấn đề trích xuất cốt lõi nghe có vẻ đơn giản cho đến khi bạn nhìn vào dữ liệu thực tế.

Mô hình cần phải phân biệt được giữa:

một bữa tiệc thực sự sắp diễn ra tại Barbados
một bản tóm tắt (recap) của bữa tiệc đã xảy ra
áp phích du thuyền cho St. Lucia có tên DJ người Barbados
một sự kiện thể thao trông giống như tiếp thị nightlife
một bài đăng tặng quà đề cập đến sự kiện nhưng không phải là danh sách sự kiện
một bài đăng phong cách sống có hashtag ngửi giống sự kiện nhưng không có chi tiết thực tế

Và nó phải làm điều đó từ sự kết hợp giữa văn bản chú thích và sự hiểu biết về hình ảnh.

Cho đến gần đây, tôi vẫn phụ thuộc nhiều vào các mô hình được lưu trữ (hosted models) hàng đầu cho việc này. Nó hoạt động tốt. Tuy nhiên, điều này rất tốn kém, và nếu bạn đang chạy hệ thống tiêu thụ 24/7 đối với hàng nghìn bài đăng, chi phí đó trở nên mang tính cấu trúc thay vì thỉnh thoảng.

Tôi cũng muốn giảm dấu chân môi trường. Nếu tôi có thể thực hiện cùng một công việc trên một máy tính cục bộ nhỏ gọn tiêu thụ ít năng lượng trên bàn làm việc thay vì một hạ tầng suy luận khổng lồ ở đâu đó trong trung tâm dữ liệu, tôi nghĩ điều đó đáng làm.

Tại sao lại là Mac Mini M4?

Tôi đã chạy các bài đánh giá này trên một chiếc Mac Mini M4 cấu hình cơ bản với 16GB bộ nhớ thống nhất (unified memory).

Đó chính là điểm mấu chốt.

Tôi không muốn một điểm chuẩn dựa trên một máy trạm khổng lồ hoặc một hộp GPU thuê vì điều đó sẽ làm mất đi mục đích của bài tập. Câu hỏi tôi quan tâm là:

Một chiếc máy bình thường, giá cả phải chăng và cực kỳ tiết kiệm điện có thể thực hiện công việc trích xuất sự kiện đa phương thức hữu ích tại địa phương hay không?

Mac Mini hấp dẫn vì một vài lý do:

Tiêu thụ điện năng thấp khi không hoạt động và khi hoạt động
Kích thước nhỏ gọn
Ổn định
Bộ nhớ thống nhất khiến việc phục vụ mô hình cục bộ trên Apple Silicon đáng kể khả năng
Dễ dàng để chạy 24/7 cho quy trình tự host (self-hosted)

Vì vậy, động lực ở đây không chỉ là chi phí. Đó là sự kết hợp giữa chi phí và năng lượng.

Các mô hình tiên tiến được lưu trữ (hosted frontier models) rất tuyệt vời, và tôi vẫn sử dụng chúng trong một số phần của quy trình làm việc, nhưng tôi không nhất thiết muốn đốt cháy quá nhiều tiền và năng lượng cho tầng phân loại mãi mãi.

Các Mô hình được kiểm tra

Tôi đã kiểm tra một hỗn hợp các mô hình Gemma 4 và Qwen 3.5, cả dạng Dense và MoE, cộng với một biến thể Gemma 4B được tinh chỉnh (fine-tuned) riêng tư.

Các mô hình công khai bao gồm:

Gemma 4 26B A4B Instruct 4-bit
Gemma 4 4B E4B Instruct 4-bit
Qwen 3.5 35B A3B 4-bit
Qwen 3.5 9B 4-bit
Qwen 3.5 4B 4-bit

Tôi cũng đã kiểm tra một mô hình Gemma 4B riêng tư được tinh chỉnh trên bộ dữ liệu tham chiếu của riêng tôi.

Thiết lập Đánh giá

Một trong những điều tôi muốn tránh là cái bẫy kinh điển "tôi nhìn qua vài ví dụ và có vẻ ổn".

Vì vậy, tôi đã xây dựng một bộ dữ liệu tham chiếu và khung đánh giá cục bộ.

Quy trình trông như sau:

Sử dụng GPT-5 để tạo ra các đầu ra tham chiếu có cấu trúc chất lượng cao cho một tập hợp các bài đăng thực
Xem xét và sửa đổi thủ công các nhãn nơi cần thiết
Chạy các mô hình cục bộ đối với cùng một đầu vào
So sánh chất lượng phân loại isEvent và trích xuất có cấu trúc
Sử dụng GPT-5 một lần nữa làm người chấm điểm để chấm điểm định tính cho đầu ra đầy đủ

Điều đó mang lại cho tôi hai lăng kính:

Các chỉ số đơn giản: độ chính xác (accuracy), độ chính xác theo nghĩa hẹp (precision), khả năng bao quát (recall), dương tính giả (false positives), âm tính giả (false negatives)
Các chỉ số chấm điểm: điểm số GPT-5 cho mức độ tốt của câu trả lời có cấu trúc đầy đủ

Các chỉ số đơn giản quan trọng nhất cho cổng sự kiện (event gate). Nếu mô hình sai về isEvent, phần còn lại gần như không liên quan.

Nhưng các điểm số chấm điểm lại hữu ích vì chúng cho tôi biết một thing về hình dạng của các lỗi. Hai mô hình có thể có độ chính xác phân loại tương tự nhưng vẫn khác nhau rất nhiều về chất lượng trích xuất, chất lượng lý luận hoặc tuân thủ lược đồ.

Làm sạch Tiêu chuẩn Vàng (Gold Standard)

Phần này tốn nhiều công việc hơn tôi mong đợi.

Tôi bắt đầu bằng cách coi bộ tham chiếu do GPT-5 tạo ra là tiêu chuẩn vàng. Nó hóa ra lại giống một tiêu chuẩn mạ vàng hơn. Rất tốt, nhưng không hoàn hảo.

Khi tôi bắt đầu chạy các mô hình cục bộ đối với nó, tôi thấy một loạt trường hợp mà chính các tham chiếu cần được sửa đổi. Điều đó bao gồm:

Các bài đăng recap được đánh dấu là sự kiện sắp tới
Các sự kiện thể thao được đánh dấu là sự kiện giải trí
Các bài đăng tặng quà được coi là danh sách sự kiện
Các bài đăng không có ngày rõ ràng lẽ ra không nên vượt qua cổng
Các bài đăng từ bên ngoài Barbados trông có vẻ hợp lý lúc đầu

Tổng cộng tôi đã sửa đổi hàng chục nhãn trong dữ liệu tham chiếu và tinh chỉnh. Điều đó gây khó chịu, nhưng cũng hữu ích. Các mô hình đang buộc tôi phải làm sắc nét các quy tắc, không chỉ đánh giá chúng.

Điều đó dẫn đến một câu lệnh (prompt) chặt chẽ hơn với các quy tắc rõ ràng như:

ngày tháng là bắt buộc
ngôn ngữ recap có nghĩa là isEvent=false
thể thao và tặng quà bị loại trừ
sự kiện thực sự phải ở Barbados
địa điểm được ưu tiên, nhưng cuối cùng tôi đã nới lỏng quy tắc này cho các bài đăng sự kiện có ngày tháng nhưng địa điểm được công bố riêng

Kết quả

Dưới đây là các lượt chạy mẫu 200 đầy đủ mới nhất trên bộ tham chiếu đã làm sạch.

Model	Architecture	Accuracy	Precision	Recall	F1	TP	TN	FP	FN
Gemma 4 26B A4B	MoE	96.0%	86.0%	100.0%	92.5%	49	143	8	0
Qwen 3.5 9B	Dense	92.5%	94.7%	76.6%	84.7%	36	149	2	11
Qwen 3.5 35B A3B	MoE	91.5%	83.3%	81.6%	82.5%	40	143	8	9
Gemma 4 4B fine-tuned	Dense	88.0%	71.9%	83.7%	77.4%	41	135	16	8
Gemma 4 4B base	Dense	87.5%	70.0%	85.7%	77.1%	42	133	18	7
Qwen 3.5 4B	Dense	86.0%	86.8%	76.7%	81.5%	33	139	5	10

Và đây là điểm số chấm điểm từ GPT-5 trên các lượt chạy mẫu 200:

Model	Accuracy	Judge Avg	Judge Median
Qwen 3.5 35B A3B	91.5%	70.3	72.0
Gemma 4 26B A4B	96.0%	66.6	68.0
Qwen 3.5 9B	92.5%	64.3	65.0
Qwen 3.5 4B	86.0%	59.3	61.0
Gemma 4 4B base	87.5%	58.8	60.5
Gemma 4 4B fine-tuned	88.0%	56.7	58.0

Thiết lập Mac Mini trên sàn để kiểm tra

Những điểm nổi bật

Gemma 4 26B A4B là người chiến thắng rõ ràng về chỉ số quan trọng nhất

Nếu mối quan tâm chính của bạn là "chúng ta có bỏ sót một sự kiện thực tế không?", thì Gemma 4 26B A4B nổi bật nhất.

Nó có:

độ chính xác tốt nhất
điểm F1 tốt nhất
khả năng bao quát hoàn hảo trong lần chạy này
zero âm tính giả

Con số cuối cùng là thứ thực sự thu hút tôi. Bỏ sót một sự kiện thực sự rất tốn kém cho sản phẩm vì điều đó có nghĩa là trang web không hoàn chỉnh. Gemma 4 26B đơn giản là không bỏ sót bất kỳ sự kiện thực tế nào trong bộ dữ liệu này.

Nó vẫn tạo ra 8 dương tính giả, vì vậy nó không hoàn hảo. Nhưng nếu tôi phải chọn một mô hình cục bộ hôm nay để đặt sau cổng trích xuất, đây sẽ là lựa chọn của tôi.

Qwen 3.5 9B hoạt động sắc bén đáng ngạc nhiên

Qwen 3.5 9B có độ chính xác (precision) tốt nhất ở mức 94.7% với chỉ 2 dương tính giả.

Điều đó có nghĩa là khi nó nói rằng một cái gì đó là một sự kiện, nó thường đúng.

Nhưng sự đánh đổi là khả năng bao quát (recall). Nó đã bỏ sót 11 sự kiện thực.

Vì vậy, đây là một bộ phân loại bảo thủ hơn. Tốt nếu bạn ghét dương tính giả. Không tốt lắm nếu công việc của bạn là đảm bảo không ai bỏ lỡ một bữa tiệc.

Qwen 3.5 35B A3B có điểm số chấm điểm tốt nhất, nhưng không phải là cổng sự kiện tốt nhất

Đây là một trong những kết quả thú vị hơn.

Người chấm điểm GPT-5 thích Qwen 3.5 35B A3B nhất về tổng thể. Nó ghi được 70.3 điểm trung bình so với 66.6 của Gemma 4 26B.

Tôi nghĩ điều đó có nghĩa là Qwen 35B thường tạo ra các đầu ra có cấu trúc mượt mà hoặc nhất quán về mặt nội bộ hơn, ngay cả khi nó hơi tệ hơn về các chỉ số phân loại sự kiện thô.

Vì vậy, nếu bạn tối ưu hóa cho "sự hoàn hảo" của việc trích xuất, Qwen 35B trông rất mạnh mẽ.

Nếu bạn tối ưu hóa cho "nó có bỏ sót một sự kiện thực tại Barbados không?", thì Gemma 26B vẫn thắng.

Tinh chỉnh (Fine-tuning) Gemma 4B không mang lại chiến thắng như tôi hy vọng

Điều này khá khiêm tốn.

Mô hình Gemma 4B được tinh chỉnh riêng tư ghi được 88.0%. Mô hình cơ bản Gemma 4B chưa tinh chỉnh ghi được 87.5%.

Vì vậy, có, phiên bản tinh chỉnh về mặt kỹ thuật tốt hơn một chút. Nhưng chỉ một chút. Và điểm số chấm điểm của nó thực sự tệ hơn so với bản gốc 4B.

Điều đó gợi ý rằng một số điều có thể đang xảy ra:

mô hình cơ bản đã khá có khả năng
bộ đào tạo có nhiễu nhãn lịch sử trước khi tôi làm sạch nó đúng cách
bản tinh chỉnh có thể đã overfit (quá khớp) một số mẫu từ chế độ prompt trước đó
khả năng tuân thủ chỉ dẫn (instruction-following) từ Gemma 4 đã làm phần lớn công việc

Đây là một lời nhắc nhở tốt rằng tinh chỉnh không phải là phép màu. Nếu prompt và nhãn thay đổi nhanh chóng, việc làm suy giảm một mô hình nhỏ có thể dễ dàng hơn là cải thiện nó.

Mô hình lớn hơn không phải lúc nào cũng tốt hơn trong cùng một dòng họ

Qwen 3.5 9B hoạt động tốt hơn Qwen 3.5 35B A3B về độ chính xác thô.

Điều đó khá bất ngờ.

Biến thể 35B MoE có điểm số chấm điểm tốt hơn và khả năng bao quát hơi tốt hơn, nhưng mô hình Dense 9B chính xác hơn và dẫn đầu về độ chính xác tổng thể.

Vì vậy, dòng họ mô hình rất quan trọng. Tương thích prompt rất quan trọng. Và kiến trúc rất quan trọng. Nó không đơn giản như "chọn cái lớn nhất bạn vừa vặn".

Một số Chế độ Thất bại

Nhìn qua các dương tính giả và âm tính giả là một trong những phần hữu ích nhất của quá trình.

Một số chế độ thất bại lặp đi lặp lại là:

các ngày tháng ảo tưởng từ các manh mối một phần trong hình ảnh
coi các album recap là sự kiện trong tương lai
không áp dụng nhất quán quy tắc chỉ dành cho Barbados
quá tự tin vào các bài đăng phong cách sống có hashtag giống sự kiện
coi các bài đăng tặng quà và khuyến mãi phụ là bài đăng sự kiện chính

Một điều tốt đẹp khi sử dụng mô hình cục bộ ở đây là khi bạn có thể phân loại chế độ thất bại, bạn thường có thể làm một trong ba việc:

thắt chặt prompt
sửa các nhãn tham chiếu
chấp nhận sự đánh đổi và chọn mô hình có những sai sót bạn ghét ít nhất

Điểm cuối cùng rất quan trọng. Không có mô hình hoàn hảo ở đây. Chỉ có mô hình có những sai sót phù hợp nhất với sản phẩm.

Đối với WeOutside246, các âm tính giả đặc biệt đau đớn vì chúng có nghĩa là một sự kiện thực sự không bao giờ xuất hiện. Vì vậy, tôi sẵn sàng chấp nhận một số dương tính giả hơn là bỏ lỡ một sự kiện hợp pháp tại Barbados.

Ý nghĩa thực tế

Tôi nghĩ bài học lớn nhất là:

Bạn giờ có thể thực hiện công việc trích xuất đa phương thức nghiêm túc tại địa phương trên một máy Apple Silicon nhỏ gọn, tiêu dùng.

Không hoàn hảo. Không cho mọi khối lượng công việc. Nhưng hoàn toàn đủ tốt để làm cho nó hữu ích cho một sản phẩm thực.

Cảm giác như một sự thay đổi bước ngoặt.

Kể cả vài tháng trước, tôi đã giả định rằng loại quy trình này cần phải gắn liền với các mô hình được lưu trữ tiên tiến trong foreseeable future. Bây giờ tôi nghĩ bức tranh phức tạp hơn nhiều.

Đối với WeOutside246, hình dạng có khả năng của hệ thống trong tương lai là:

sử dụng các mô hình cục bộ cho phần lớn công việc trích xuất và phân loại sự kiện
giữ các mô hình tiên tiến cho việc chấm điểm giá trị cao hơn, tạo tập dữ liệu và có thể một số nhiệm vụ hợp nhất khó khăn hơn
tiếp tục tinh chỉnh prompt và đánh giá khi sự phân phối nội dung thay đổi theo thời gian

Vì vậy, đây không phải là tôi nói các mô hình được lưu trữ đã lỗi thời. xa điều đó.

Đó là tôi nói rằng ranh giới đã dịch chuyển. Và đối với các sản phẩm nhỏ, dự án phụ và các công cụ tự tài trợ, đó là một vấn đề rất lớn.

Các bước tiếp theo

Vẫn còn một số việc tôi muốn làm:

chạy lại bản tinh chỉnh trên bộ dữ liệu đã làm sạch
đo lưu lượng và chi phí trên mỗi bài đăng một cách kỹ lưỡng hơn
theo dõi mức tiêu thụ năng lượng trên Mac Mini thay vì chỉ suy ra mức tiết kiệm về mặt định tính
kiểm tra xem thiết lập xếp tầng (cascaded) có hoạt động tốt hơn không, ví dụ: mô hình nhỏ trước và mô hình lớn hơn chỉ cho các bài đăng ranh giới
xuất bản nhiều công cụ đánh giá hơn khi tôi đã làm sạch nó một chút

Tôi cũng muốn tiếp tục kiểm thử các quy tắc cụ thể của Barbados. Đường ranh giới giữa sự kiện, khuyến mãi, recap và trò chuyện xã hội mang tính cụ thể về văn hóa, và đó chính là điều làm cho điều này thú vị.

Một trong những mục tiêu ở đây không bao giờ là xây dựng một công cụ trích xuất sự kiện chung. Nó là xây dựng một cái gì đó hiểu được góc cụ thể này của internet.

Sự khác biệt giữa một áp phích bữa tiệc Barbados đúng nghĩa và một bài đăng vừa tình cờ có một DJ trong đó rất tinh tế cho đến khi bạn thấy đủ nhiều.

Sau đó nó trở nên rõ ràng.

Chà... rõ ràng với con người anyway. Đưa một mô hình để nội hóa điều đó mới là phần thú vị.

Kết luận

Tôi nghĩ AI cục bộ cuối cùng đã đến điểm mà nó có thể thực hiện công việc có ý nghĩa cho các sản phẩm thực, không chỉ là bản demo.

Đối với tôi, điều này thú vị vì nó mở ra một con đường để làm cho WeOutside246 rẻ hơn để vận hành, bền vững hơn và độc lập hơn về giá cả suy luận được lưu trữ.

Và tôi khá thích ý tưởng rằng một chiếc Mac Mini nhỏ nằm yên tĩnh trên bàn làm việc hiện có thể thực hiện công việc mà, không lâu lắm, tôi đã giả định cần một hệ thống AI từ xa lớn.

Nếu bạn đang xây dựng một cái gì đó tương tự, đặc biệt là bất cứ thứ gì liên quan đến phân loại cộng thêm trích xuất trên dữ liệu mạng xã hội thực tế lộn xộn, tôi sẽ khuyến khích mạnh mẽ bạn xây dựng khung đánh giá trước.

Bảng xếp hạng mô hình thì thú vị. Phân loại lỗi riêng của bạn quan trọng hơn nhiều.

Dù sao, đó là nơi mọi thứ đang đứng ngay bây giờ. Tôi sẽ tiếp tục lặp lại trên các prompt, có thể đào tạo lại bản tinh chỉnh 4B trên dữ liệu đã làm sạch và xem tôi có thể nén thêm bao nhiêu từ stack cục bộ.

Hãy theo dõi. WeOutside246 đang thông minh hơn rất nhiều.

Chuyển đổi WeOutside246 từ GPT-5 sang Local Models trên Mac Mini M4: Bài học thực tế

Bối cảnh

Tại sao lại là Mac Mini M4?

Các Mô hình được kiểm tra

Thiết lập Đánh giá

Làm sạch Tiêu chuẩn Vàng (Gold Standard)

Kết quả

Những điểm nổi bật

Gemma 4 26B A4B là người chiến thắng rõ ràng về chỉ số quan trọng nhất

Qwen 3.5 9B hoạt động sắc bén đáng ngạc nhiên

Qwen 3.5 35B A3B có điểm số chấm điểm tốt nhất, nhưng không phải là cổng sự kiện tốt nhất

Tinh chỉnh (Fine-tuning) Gemma 4B không mang lại chiến thắng như tôi hy vọng

Mô hình lớn hơn không phải lúc nào cũng tốt hơn trong cùng một dòng họ

Một số Chế độ Thất bại

Ý nghĩa thực tế

Các bước tiếp theo

Kết luận

Bài viết liên quan