Xây dựng hệ thống AI tự động tóm tắt sách từ Kindle Highlights
Tác giả đã chia sẻ quy trình xây dựng một công cụ miễn phí chạy cục bộ để tự động làm sạch và tóm tắt các đoạn trích nổi bật trên Kindle. Sử dụng kết hợp Python và mô hình AI mã nguồn mở Ollama, giải pháp này giúp người đọc tiết kiệm thời gian tổng hợp kiến thức mà không cần tốn chi phí.

Đọc sách là một thói quen tuyệt vời, nhưng việc ghi nhớ và nắm bắt trọn vẹn nội dung lại là một câu chuyện khác. Nhiều người trong chúng ta thường sử dụng tính năng đánh dấu (highlights) trên Kindle để lưu lại những ý quan trọng. Tuy nhiên, đôi khi chúng ta lại đánh dấu quá nhiều, đến mức việc tổng hợp lại chúng sau khi đọc xong trở nên quá tốn thời gian và dễ khiến chúng ta bỏ cuộc.
Để giải quyết vấn đề này, tôi đã quyết định tự động hóa quy trình bằng kỹ năng lập trình và dữ liệu của mình. Kết quả là một dự án mã nguồn mở, hoàn toàn miễn phí và chạy cục bộ trên máy tính, giúp làm sạch, cấu trúc và tóm tắt các đoạn trích trên Kindle một cách tự động.
Trích xuất và xử lý dữ liệu
Mục tiêu của dự án khá đơn giản: Lấy các đoạn trích từ Kindle và tạo ra bản tóm tắt có cấu trúc.
Để lấy dữ liệu, không cần can thiệp sâu vào hệ thống (jailbreak). Hầu hết các thiết bị Kindle đều lưu trữ tất cả các đoạn đánh dấu vào một tệp tin văn bản tên là My Clippings.txt nằm trong thư mục documents. Bạn chỉ cần kết nối Kindle với máy tính qua USB là có thể truy cập tệp này.
Tuy nhiên, dữ liệu trong My Clippings.txt khá lộn xộn. Tất cả các sách đều nằm trong một tệp, và ngay cả khi bạn xóa một đoạn đánh dấu trên Kindle, bản gốc của nó vẫn còn nằm trong tệp tin này. Ngoài ra, Amazon cũng áp dụng giới hạn số lượng đoạn trích để tránh vi phạm bản quyền.
Cấu trúc của một đoạn trích thường trông như sau:
==========
Tên Sách (Tên Tác Giả)
- Your Highlight on page 145 | Location 2212-2212 | Added on ...
Nội dung đoạn trích
==========
Để xử lý điều này, tôi sử dụng Python để phân tích cú pháp (parse) tệp tin. Quy trình bao gồm:
- Lọc theo sách: Chỉ lấy các đoạn trích thuộc về cuốn sách cụ thể đang cần xử lý.
- Sắp xếp và loại bỏ trùng lặp: Sắp xếp theo vị trí (location) và loại bỏ các đoạn trùng nhau.
- Phân nhóm theo chương: Đây là phần khó nhất. Tệp tin văn bản không đánh dấu đâu là tiêu đề chương. Tôi đã sử dụng một thuật toán heuristic dựa trên tỷ lệ viết hoa, độ dài từ và các từ dừng (stopwords) để tự động nhận diện đâu là tiêu đề chương và nhóm các đoạn trích vào đúng chương tương ứng.
Tích hợp AI và xuất kết quả
Sau khi dữ liệu đã được làm sạch và cấu trúc, bước tiếp theo là tóm tắt. Vì tôi muốn dự án này miễn phí và đảm bảo quyền riêng tư (dữ liệu không được gửi lên đám mây), tôi đã chọn sử dụng Ollama.
Ollama cho phép chạy các mô hình ngôn ngữ lớn (LLM) mã nguồn mở ngay trên máy tính cá nhân. Trong dự án này, tôi sử dụng mô hình Mistral.
Quá trình tóm tắt được thực hiện thông qua một lệnh gọi subprocess đơn giản trong Python với prompt (lệnh) yêu cầu AI tạo ra cấu trúc bao gồm: Luận điểm chính, Tóm tắt ngắn, Các ý tưởng chính, Khái niệm quan trọng và Bài học thực tế.
Cuối cùng, để dễ dàng lưu trữ và tra cứu lại, tôi viết một hàm để xuất kết quả ra định dạng Markdown. Đây là định dạng phổ biến và tương thích hoàn hảo với các ứng dụng ghi chú như Obsidian.
Kết quả
Toàn bộ quy trình được gói gọn trong chưa đến 300 dòng mã Python. Khi chạy script, hệ thống sẽ đọc tệp My Clippings.txt, xử lý dữ liệu, gửi cho mô hình AI và trả về bản tóm tắt chi tiết chỉ trong vài giây.
Ví dụ, khi thử nghiệm với cuốn sách "Talking to Strangers" của Malcolm Gladwell, hệ thống đã trả về một bản tóm tắt rất mạch lạc, nắm bắt được các khái niệm cốt lõi như "vấn đề về sự minh bạch" (transparency problem) và "mặc định tin tưởng" (default-to-truth).
Dự án này là minh chứng cho thấy cách kết hợp kỹ năng lập trình với sức mạnh của AI hiện đại có thể giải quyết những vấn đề nhỏ nhặt nhưng tốn thời gian trong cuộc sống hàng ngày, giúp chúng ta tập trung hơn vào việc tiếp thu kiến thức thay vì xử lý thủ công.
Bài viết liên quan

Công nghệ
Đánh giá Oppo Find X9 Ultra: Siêu phẩm camera 10x zoom hay một chiêu trò thừa thãi?
21 tháng 4, 2026

Công nghệ
SDL chính thức hỗ trợ DOS: Hồi sinh hệ điều hành cổ điển với khả năng đồ họa và âm thanh hiện đại
24 tháng 4, 2026

Công nghệ
Giới thiệu về các phương pháp giải pháp xấp xỉ trong Học tăng cường (Reinforcement Learning)
24 tháng 4, 2026
