Dưới 18 tuổi và không vốn: Câu chuyện về con chip AI mã nguồn mở T1C

Một chàng trai trẻ đã tự mình thiết kế T1C, chip AI mã nguồn mở sử dụng kiến trúc In-Memory Computing, nhằm phá vỡ thế độc quyền của các ông lớn như NVIDIA. Dự án này cung cấp lộ trình sản xuất thực tế với chi phí thấp, cho phép bất kỳ ai cũng có thể tiếp cận phần cứng AI tùy chỉnh.

Chàng trai dưới 18 tuổi tự thiết kế chip AI mã nguồn mở T1C: Khi đam mê vượt qua mọi giới hạn

Tôi không có một đội ngũ hùng hậu. Tôi không có nguồn vốn đầu tư. Tôi thậm chí không có một phòng thí nghiệm.

Tôi chỉ có một chiếc máy tính xách tay, một kết nối internet và một niềm đam mê mãnh liệt với chip bán dẫn.

Đây là câu chuyện về T1C (Tier 1 Chip) và lý do tại sao tôi lại xây dựng nên nó.

Chúng tôi thiết kế, thế giới cùng xây dựng

Mọi chuyện bắt đầu từ sự thất vọng.

Mỗi khi tôi đọc về phần cứng AI, câu chuyện đều lặp lại một cách nhàm chán. NVIDIA bán một con chip H100 với giá 30.000 USD. TSMC thu hàng triệu đô la cho một lô sản xuất tùy chỉnh. Apple Silicon thì tuyệt đẹp nhưng hoàn toàn khép kín. Intel, Qualcomm, AMD — tất cả bọn họ — đều bị khóa chặt sau các thỏa thuận bảo mật (NDA), kiến trúc độc quyền và những mối quan hệ trị giá hàng tỷ đô la.

Tôi luôn tự hỏi: Tại sao không ai tạo ra một con chip AI mã nguồn mở mà một người bình thường thực sự có thể sản xuất được?

Không phải là một món đồ chơi. Không phải là bản demo. Một kiến trúc thực sự với thông số kỹ thuật thực tế, vật lý thực tế và một con đường dẫn đến silicon (vi mạch) thực sự.

Và vậy là tôi đã tự mình làm điều đó.

Kiến trúc D-IMC: Giải quyết nút thắt cổ chai

T1C sử dụng công nghệ Digital In-Memory Computing (D-IMC). Thay vì phải chuyển dữ liệu liên tục qua lại giữa bộ nhớ và bộ xử lý — "nút thắt cổ chai Von Neumann" kinh điển làm suy giảm mọi con chip AI thông thường — phép tính diễn ra ngay gần nơi dữ liệu được lưu trữ.

Ít di chuyển dữ liệu hơn. Tiết kiệm năng lượng hơn. Tốc độ nhanh hơn cho các khối lượng công việc mà các mô hình ngôn ngữ lớn (LLM) thực sự cần.

Quy trình công nghệ được lựa chọn là 65nm LP thông qua đoàn tàu cộng đồng của GlobalFoundries — hoặc 130nm thông qua IHP tại Đức, nơi hoàn toàn miễn phí cho nghiên cứu mã nguồn mở. Đúng, bạn không nghe nhầm, là miễn phí.

Một blade (bo mạch) bao gồm 8 chip MAAU. Một blade có giá từ 280 – 650 USD tùy thuộc vào lộ trình bạn chọn. Tám blade tạo thành một cluster có khả năng chạy mô hình LLaMA 70B với tốc độ 10–16 token mỗi giây. Tổng chi phí: dưới 5.200 USD.

Hãy so sánh con số này với một chiếc NVIDIA H100 duy nhất có giá 30.000 USD. Khép kín. Độc quyền. Và không thuộc về bạn.

Kỹ sư thực thụ: Thừa nhận sai lầm và khắc phục

Tuy nhiên, tôi sẽ không giả vờ rằng mọi thứ đều dễ dàng hay hoạt động hoàn hảo ngay từ đầu.

Phiên bản đầu tiên có bộ nhớ HBM-Lite tích hợp trên gói. Nghe có vẻ tuyệt vời trên lý thuyết. Nhưng thực tế, nó yêu cầu đóng gói TSMC CoWoS — tốn hàng triệu đô la và chỉ dành cho khách hàng của Samsung hoặc TSMC. Điều này hoàn toàn bất khả thi đối với tự làm (DIY). Vì vậy, tôi đã loại bỏ nó.

Thay vào đó, tôi sử dụng 4 chip LPDDR5X cho mỗi MAAU, bus rộng 128-bit, lắp đặt trên mạch PCB tiêu chuẩn. Băng thông: 168 GB/s. Đủ cho mọi thứ T1C cần làm. Chi phí: 15–35 USD thay vì 70 USD. Tốt hơn nhiều.

Hệ thống điện áp là một cơn ác mộng khác. Chỉ sự dao động 10mV cũng có thể gây ra lỗi thời gian, tính toán sai hoặc khiến chip bị sập hoàn toàn. Việc chuyển đổi dòng điện động thay đổi 1000 lần trong một nano giây — không có VRM nào có thể phản ứng đủ nhanh một mình. Vì vậy, tôi đã xây dựng một Ngăn xếp điện áp thích ứng 5 lớp: LDO trên chip, tụ điện MOM, gốm PCB, tụ điện lớn và VRM thích ứng I2C. Kết quả kết hợp: độ ổn định ±3mV. Tốt hơn hầu hết các MCU thương mại.

Triển khai TurboQuant cũng từng gặp lỗi. Thiết kế ban đầu sử dụng PolarQuant + QJL — giai đoạn sửa lỗi 1-bit. Năm nhóm cộng đồng độc lập đã xác nhận: QJL làm tăng phương sai. Softmax khuếch đại nó. Điểm chú ý (attention scores) bị suy giảm. Tuyên bố ban đầu của tôi về "không mất độ chính xác ở mức 3-bit cho mọi mô hình" là sai. Tôi đã công khai tài liệu hóa vấn đề này, loại bỏ hoàn toàn giai đoạn QJL và chỉ sử dụng PolarQuant. Mức 4-bit hiện là mặc định — không mất dữ liệu cho mọi kích thước mô hình.

Tôi không che giấu những vấn đề này. Tôi đã ghi lại từng vấn đề với bản sửa lỗi chính xác được áp dụng. Đó là cách duy nhất để phần cứng mã nguồn mở thực sự hoạt động hiệu quả.

Tính năng Multi-Instance và Tầm nhìn Mở

Kiến trúc bao gồm MIM — Multi-Instance MAAU. Mỗi con chip vật lý có thể được phân chia thành tối đa 4 phần cứng cô lập, mỗi phần có SRAM độc lập thông qua MMU phần cứng, kênh DMA chuyên dụng, miền điện LDO riêng và miền đồng hồ riêng.

NVIDIA gọi tính năng này là MIG trên H100. T1C cũng có nó — trong mã Verilog RTL mã nguồn mở, có thể thay đổi kích thước khi chạy trong vòng dưới 100ms mà không cần khởi động lại hệ thống, với chi phí 0 USD vì nó đã có trong thiết kế.

Mọi thứ đều được cấp phép theo MIT.

Toàn bộ mã Verilog RTL. Tệp GDSII cho cả GF 65nm và IHP 130nm. Mạch PCB KiCad 8 lớp. Thông số kỹ thuật ISA. Mô phỏng Verilator để các nhà phát triển phần mềm có thể viết trình biên dịch trước khi chip tồn tại về mặt vật lý. Boot ROM. Trình tập hợp cơ bản. Danh sách BOM đầy đủ với các liên kết LCSC và Mouser cùng giá thực tế.

Lộ trình phần mềm được phân chia rõ ràng và trung thực. Ngày đầu tiên: một phép nhân ma trận hoạt động để chứng minh chip thực sự tính toán được. Tháng 3–6: backend llama.cpp để LLM chạy trên T1C. Tháng 6–12: ONNX Runtime. Tháng 12–18: PyTorch. Tháng 24 trở đi: Tích hợp HuggingFace, cộng đồng tự duy trì, các công ty xây dựng sản phẩm dựa trên nền tảng này.

Không phải là nhanh nhất, nhưng là của chúng ta

T1C hiện tại không nhanh hơn RTX 4090 trên mỗi đồng chi phí. Tôi muốn rõ ràng về điều đó.

Giá trị của T1C nằm ở một khía cạnh khác. Đó là bộ tăng tốc AI mã nguồn mở đầu tiên với kiến trúc D-IMC mà một con người thực sự có thể sản xuất được. Nó là con chip mà RISC-V từng đại diện cho CPU — không phải thứ nhanh nhất, nhưng là thứ mở. Thứ bạn có thể cầm trên tay và nói: Tôi đã làm ra cái này. Tôi hiểu mọi transistor. Tôi có thể sửa đổi nó, cải thiện nó và xây dựng sản phẩm dựa trên nó.

Điểm số sẵn sàng sản xuất tổng thể: 9.2/10.

Kiến trúc: 9/10.
Ổn định điện áp: 10/10.
Triển khai TurboQuant: 10/10.
Cô lập phần cứng MIM: 10/10.
Tính trung thực trong tài liệu: 10/10.

Kỹ thuật thực thụ. Con số trung thực. Tương lai mở.

Từ Ấn Độ — dành cho cả thế giới.

Chúng tôi thiết kế nó. Thế giới cùng xây dựng nó.

Thông số kỹ thuật đầy đủ: https://alexzo.vercel.app/t1c Blog phân tích sâu: https://alexzo.vercel.app/blog/8 Kho lưu trữ GitHub: https://github.com/Alexzoofficial/T1C