Karpathy chia sẻ kiến trúc "Cơ sở dữ liệu tri thức LLM" thay thế hoàn toàn RAG bằng Markdown

Andrej Karpathy, cựu giám đốc AI của Tesla, đã chia sẻ một phương pháp thú vị để quản lý tri thức AI mà không phụ thuộc vào cơ sở dữ liệu vector hay RAG truyền thống. Thay vào đó, ông xây dựng một hệ thống lưu trữ dựa trên Markdown, nơi LLM đóng vai trò là một "thư viện" tự động biên dịch và duy trì các liên kết nội tại. Cách tiếp cận này không chỉ giải quyết vấn đề giới hạn ngữ cảnh của AI mà còn tạo ra một kho kiến thức minh bạch, dễ dàng kiểm tra (auditability) và có khả năng tự chữa lành, hứa hẹn trở thành xu hướng mới cho các dự án nghiên cứu và doanh nghiệp trong tương lai.

Andrej Karpathy, người tạo ra thuật ngữ "vibe coding", đã cung cấp một lý do mới để các lập trình viên AI biết ơn ông. Cựu Giám đốc AI của Tesla và đồng sáng lập OpenAI, hiện đang điều hành dự án AI độc lập, vừa đăng tải trên X mô tả một cách tiếp cận gọi là "Cơ sở dữ liệu tri thức LLM" (LLM Knowledge Bases) để quản lý các chủ đề nghiên cứu của mình.

Bằng cách xây dựng một hồ sơ lưu trữ bền vững, được LLM duy trì, Karpathy đang giải quyết nỗi đau cốt lõi của phát triển AI "không trạng thái": việc bị reset giới hạn ngữ cảnh. Đối với bất kỳ ai đã từng trải nghiệm cảm giác đau đớn khi đạt giới hạn token hoặc kết thúc phiên làm việc – giống như một liều phẫu thuật não bộ đối với dự án của bạn – thì việc buộc phải tốn kém thời gian và token để tái tạo ngữ cảnh cho AI là điều không thể tránh khỏi.

Karpathy đề xuất một giải pháp đơn giản và thanh lịch hơn nhiều so với giải pháp doanh nghiệp truyền thống là cơ sở dữ liệu vector và quy trình RAG (Tạo sinh tăng cường truy xuất). Thay vào đó, ông mô tả một hệ thống nơi LLM đóng vai trò là một "thư viện nghiên cứu" toàn thời gian – chủ động biên dịch, kiểm tra lỗi và tạo liên kết giữa các tệp Markdown (.md), định dạng dữ liệu thân thiện nhất với LLM và có dung lượng tối thiểu.

Bằng cách chuyển hướng một lượng lớn "lưu lượng token" vào thao tác với kiến thức có cấu trúc thay vì mã giả, Karpathy đã phác thảo một bản đồ cho giai đoạn tiếp theo của "Cái não thứ hai" (Second Brain) – một cái mà tự chữa lành, có thể kiểm toán được và hoàn toàn dễ đọc bởi con người.

Bên cạnh RAG

Trong ba năm qua, lối đi chính để cung cấp dữ liệu độc quyền cho LLM là RAG. Trong một cài đặt RAG tiêu chuẩn, tài liệu được cắt thành các đoạn tùy ý, chuyển đổi thành các vectơ toán học (embedding) và lưu trữ trong cơ sở dữ liệu chuyên biệt. Khi người dùng đặt câu hỏi, hệ thống thực hiện "tìm kiếm sự tương đồng" để tìm các đoạn phù hợp nhất và đưa chúng vào LLM.

Cách tiếp cận của Karpathy, gọi là LLM Knowledge Bases, bác bỏ sự phức tạp của cơ sở dữ liệu vector cho các tập dữ liệu cỡ vừa. Thay vào đó, nó dựa vào khả năng ngày càng tăng của LLM trong việc suy luận trên văn bản có cấu trúc.

Kiến trúc hệ thống, như được minh họa bởi người dùng X @himanshu, hoạt động trong ba giai đoạn distinct:

Nhập liệu dữ liệu (Data Ingest): Nguyên liệu thô – các bài báo nghiên cứu, kho lưu trữ GitHub, tập dữ liệu và bài viết web – được đổ vào thư mục raw/. Karpathy sử dụng Obsidian Web Clipper để chuyển đổi nội dung web thành tệp Markdown (.md), đảm bảo rằng ngay cả hình ảnh cũng được lưu cục bộ để LLM có thể tham chiếu chúng qua khả năng thị giác.
Bước biên dịch (The Compilation Step): Đây là đổi mới cốt lõi. Thay vì chỉ lập chỉ mục các tệp, LLM "biên dịch" chúng. Nó đọc dữ liệu thô và viết một wiki có cấu trúc. Điều này bao gồm tạo tóm tắt, xác định các khái niệm chính, soạn thảo các bài viết theo phong cách bách khoa thư và quan trọng nhất là tạo backlinks (liên kết ngược) giữa các ý tưởng liên quan.
Bảo trì chủ động (Active Maintenance/Linting): Hệ thống không tĩnh. Karpathy mô tả việc chạy các lần kiểm tra sức khỏe hoặc kiểm tra lỗi (linting) nơi LLM quét wiki để tìm các mâu thuẫn, dữ liệu thiếu hoặc các kết nối mới. Như thành viên cộng đồng Charly Wargnier nhận xét, "Nó hoạt động như một cơ sở dữ liệu tri thức AI sống động thực sự và tự chữa lành."

Bằng cách coi các tệp Markdown là "nguồn chân lý" (source of truth), Karpathy tránh được vấn đề "hộp đen" của các embedding vector. Mọi tuyên bố do AI đưa ra đều có thể truy xuất ngược lại đến một tệp .md cụ thể mà con người có thể đọc, chỉnh sửa hoặc xóa.

Tác động đến doanh nghiệp

Mặc dù cài đặt của Karpathy hiện được mô tả là "bộ tập lệnh lộn xộn", nhưng tác động đến doanh nghiệp là ngay lập tức.

Như doanh nhân Vamshi Reddy (@tammireddy) đã nhận xét trong phản hồi: "Mọi doanh nghiệp đều có một thư mục raw/. Chưa ai từng biên dịch nó. Đó chính là sản phẩm."

Karpathy đồng ý, gợi ý rằng phương pháp này đại diện cho một "thể loại sản phẩm bất ngờ khổng lồ". Hầu hết các công ty hiện đang "ngập chìm" trong dữ liệu không cấu trúc – các nhật ký Slack, wiki nội bộ và báo cáo PDF mà không ai có thời gian tổng hợp lại.

Một lớp doanh nghiệp theo phong cách "Karpathy" sẽ không chỉ tìm kiếm các tài liệu này; nó sẽ chủ động soạn thảo một "Kinh thánh công ty" (Company Bible) cập nhật theo thời gian thực.

Triết lý "Tệp tin hơn Ứng dụng" (File-over-app)

Về mặt kỹ thuật, phương pháp của Karpathy được xây dựng trên một tiêu chuẩn mở (Markdown) nhưng được nhìn qua lăng kính mở rộng nhưng thuộc quyền sở hữu (nền tảng ghi chú và tổ chức tệp Obsidian).

Markdown (.md): Bằng cách chọn Markdown, Karpathy đảm bảo cơ sở dữ liệu tri thức của mình không bị khóa bởi nhà cung cấp cụ thể. Nó tương lai được bảo vệ; nếu Obsidian biến mất, các tệp vẫn có thể đọc được bằng bất kỳ trình soạn thảo văn bản nào.
Obsidian: Mặc dù Obsidian là một ứng dụng thuộc sở hữu, nhưng triết lý "địa phương đầu tiên" (local-first) và EULA của nó (cho phép sử dụng cá nhân miễn phí và yêu cầu giấy phép cho mục đích thương mại) phù hợp với mong muốn của nhà phát triển về chủ quyền dữ liệu.

Triết lý "Tệp tin hơn Ứng dụng" này là một thách thức trực tiếp đối với các mô hình dựa nhiều trên SaaS như Notion hay Google Docs. Trong mô hình Karpathy, người dùng sở hữu dữ liệu, và AI chỉ là một trình chỉnh sửa cực kỳ tinh vi "thăm" các tệp để thực hiện công việc.

So sánh Vector DB và Markdown Wiki

Cộng đồng AI đã phản ứng với sự kết hợp giữa sự xác nhận kỹ thuật và sự hào hứng của "vibe coding". Cuộc tranh luận xoay quanh việc ngành công nghiệp có đang quá tập trung vào Vector DB cho các vấn đề vốn dĩ liên quan đến cấu trúc, không chỉ là sự tương đồng.

Dưới đây là bảng so sánh nhanh:

Tính năng	Vector DB / RAG	Markdown Wiki của Karpathy
Định dạng dữ liệu	Vectơ tối (Toán học)	Markdown dễ đọc bởi con người
Logic	Tương tự ngữ nghĩa (Khoảng cách gần nhất)	Kết nối rõ ràng (Backlinks/Chỉ mục)
Khả năng kiểm toán	Thấp (Hộp đen)	Cao (Truy xuất trực tiếp)
Tích lũy	Tĩnh (Cần lập chỉ mục lại)	Chủ động (Tự chữa lành qua linting)
Quy mô lý tưởng	Triệu tài liệu	100 - 10.000 tài liệu có tín hiệu cao

Cách tiếp cận "Vector DB" giống như một kho bãi khổng lồ, lộn xộn với một tài xế xe nâng siêu tốc. Bạn có thể tìm thấy mọi thứ, nhưng bạn không biết tại sao nó ở đó hoặc mối liên hệ của nó với băng pallet bên cạnh. Markdown Wiki của Karpathy giống như một thư viện được chọn lọc với một thư viện trưởng đang liên tục viết các cuốn sách mới để giải thích các cuốn sách cũ.

Tương lai của kiến trúc này

Hướng đi cuối cùng của Karpathy chỉ ra điểm đến cuối cùng của dữ liệu này: Tạo sinh dữ liệu tổng hợp (Synthetic Data Generation) và Tinh chỉnh (Fine-Tuning).

Khi wiki phát triển và dữ liệu trở nên "tinh khiết" hơn thông qua linting liên tục của LLM, nó trở thành tập huấn luyện hoàn hảo. Thay vì chỉ đọc wiki trong "cửa sổ ngữ cảnh" (context window), người dùng cuối có thể tinh chỉnh một mô hình nhỏ, hiệu quả hơn trên chính wiki đó. Điều này cho phép LLM "biết" về cơ sở dữ liệu tri thức cá nhân của nhà nghiên cứu trong trọng số của chính nó, biến đổi cơ bản một dự án nghiên cứu cá nhân thành một trí tuệ riêng tư.

Tóm lại, Karpathy không chỉ chia sẻ một tập lệnh; ông đã chia sẻ một triết lý. Bằng cách coi LLM là một tác nhân chủ động duy trì bộ nhớ của chính nó, ông đã vượt qua các giới hạn của các tương tác AI "một lần". Đối với nhà nghiên cứu cá nhân, điều này có nghĩa là sự kết thúc của "bookmark bị quên". Đối với doanh nghiệp, điều này có nghĩa là sự chuyển dịch từ "kho dữ liệu thô" (raw/ data lake) sang "tài sản kiến thức đã biên dịch" (compiled knowledge asset). Chúng ta đang bước vào kỷ nguyên của kho lưu trữ tự chủ.