Tại sao sẽ không bao giờ có "Năm của Linux Desktop"?
Mọi năm đều có người dự đoán đây sẽ là năm của Linux Desktop, nhưng điều đó chưa bao giờ xảy ra. Bài viết này lập luận rằng tiêu chuẩn cho một máy tính để bàn "có thể sử dụng" đã thay đổi: thay vì con người, người dùng tương lai là các tác nhân AI (AI agents). Trong khi macOS đã xây dựng cơ sở hạ tầng hoàn hảo cho việc này thông qua Accessibility API, Linux vẫn gặp khó khăn do sự phân mảnh và thiếu sự đồng bộ hóa.

Mọi năm, ai đó lại nói rằng năm nay sẽ là "năm của Linux Desktop". Nhưng năm ấy chưa bao giờ thực sự đến.
Có nhiều lý do cho điều này: trình điều khiển (drivers), trò chơi, Adobe, Microsoft Office, tuổi thọ pin, hay vấn đề khi gập nắp máy tính xách tay rồi mở ra lại thấy nó đã "ngủ quên". Những lời giải thích này đều đúng ở phạm vi hẹp nhưng chưa thỏa mãn ở tầm lớn. Chúng giải thích tại sao một cá nhân không chuyển sang Linux vào thứ Năm tuần trước, nhưng không giải thích tại sao máy tính để bàn, với tư cách là một thiết chế, vẫn tiếp tục thuộc về Apple và Microsoft.
Và bây giờ, có một lời giải thích mới và đáng buồn hơn.
Người dùng máy tính trong tương lai không phải là con người. Hoặc ít nhất không chỉ là con người. Những cỗ máy (robot) đang đến để chiếm lĩnh máy tính để bàn. Điểm thú vị là các bệ phóng cho chúng đã có sẵn từ trước. Chúng được gọi là Accessibility API (API hỗ trợ tiếp cận).
Công cụ Accessibility Inspector trên macOS
Nếu bạn dùng Mac và mở công cụ Accessibility Inspector được tích hợp sẵn trong hệ thống, bạn sẽ thấy một phiên bản thứ hai của máy tính, ẩn bên trong phiên bản đầu tiên. Phiên bản đầu tiên là thứ bạn nhìn thấy: cửa sổ, bóng đổ, hình chữ nhật bo tròn, biểu tượng nhảy lên xuống trên Dock. Phiên bản thứ hai là một cây (tree). Một hệ thống phân cấp các đối tượng theo nghĩa đen: Cửa sổ, Nhóm, Nút, Trường văn bản, Vùng cuộn, Văn bản tĩnh. Mỗi đối tượng có thuộc tính, một số có giá trị, một số có hành động.
Đây không phải là cách máy tính được thiết kế ban đầu để sử dụng (nếu "sử dụng" nghĩa là người có thị lực di chuyển con trỏ chuột). Đây là cách máy tính phải được trình bày với những người không thể dựa vào điểm ảnh. VoiceOver cần nó, Switch control cần nó, và các hệ thống chép lời cần nó. Hệ điều hành phải học cách tự mô tả bản thân.
Và bây giờ, các tác nhân (agents) cũng cần nó.
Bạn có thể thấy điều này rõ nhất ở tính năng Computer Use của OpenAI Codex. Trên macOS, nó không chỉ chụp ảnh màn hình. Nó còn kéo "văn bản khả dụng" ra khỏi cửa sổ đang hoạt động, bao gồm cả văn bản mà ứng dụng cung cấp bên ngoài vùng cuộn hiển thị. Nó cũng cho phép tác nhân tương tác với toàn bộ Mac của bạn mà không làm gián đoạn việc sử dụng của bạn, vì nó có con trỏ chuột độc lập có thể hoạt động trong nền.
Tại sao macOS lại đột nhiên tốt cho các tác nhân như vậy? Không chỉ vì Accessibility API. Cả Windows và Linux đều có API này. Vấn đề là ở các thiết lập mặc định (defaults).
Apple đã quyết định rằng nếu bạn xây dựng một ứng dụng Mac bình thường từ các điều khiển Mac bình thường như NSButton, NSTextField, WKWebView... thì ứng dụng của bạn nên có thể truy cập được theo mặc định. Nhà phát triển không cần làm gì cả. Họ viết một ứng dụng thường và nhận được một cây truy cập độ trung thực cao miễn phí, vì Apple đã đặt chi phí tuân thủ vào SDK thay vì vào ứng dụng. Người dùng khiếm thị nhận được cây đó. Và người được hưởng lợi vô tình, nhiều năm sau, là Codex.
Đây là một trong những tình huống mà mối quan tâm đạo đức hóa ra, khi nhìn lại, cũng là cơ sở hạ tầng. Trong hầu hết lịch sử phần mềm, khả năng truy cập thường bị coi là việc tuân thủ quy định, một hành động từ thiện, hoặc việc sẽ làm sau khi có thời gian (mà hiếm khi có). Điều này luôn sai! Nhưng bây giờ nó sai theo cách mà người giàu có thể hiểu: Một cây truy cập tồi không chỉ loại trừ người dùng khuyết tật, mà còn loại trừ các tác nhân AI. Khả năng truy cập đang vô tình trở thành khả năng tương thích với tác nhân.
Trong lĩnh vực này, Mac thực sự đi trước xa.
Windows, để công bằng, có một cây truy cập rất nghiêm túc gọi là Microsoft UI Automation (UIA). Về mặt kỹ thuật, nó xuất sắc. Tuy nhiên, vấn đề của Windows là khảo cổ học. Mỗi máy Windows là một bảo tàng của điện. Không chỉ có một loại ứng dụng. Có Win32, WPF, WinForms, UWP, WinUI, Electron, và những ứng dụng tùy chỉnh viết năm 2009... UIA có thể rất tốt, nhưng ứng dụng phải đáp ứng nó một nửa. Và trên Windows, ứng dụng thường không làm như vậy. Một cây UIA quét qua màn hình Windows thực sự thường đầy những vùng phản hồi giống như một ngôi nhà trống trả lời tiếng gõ cửa.
Và đây là sự lộn xộn của Linux.
Linux có một ngăn xếp khả năng truy cập gọi là AT-SPI. Nó là thật. Các ứng dụng GTK, Qt, Firefox, LibreOffice đều hỗ trợ nó. Nhưng các tác nhân không chỉ cần cây truy cập. Chúng cần liệt kê cửa sổ, chụp màn hình, tổng hợp đầu vào, và cần một mô hình quyền hạn mạch lạc.
Trên Mac, đây là một công tắc Accessibility và một công tắc Screen Recording. Trên Linux dưới Wayland, việc chụp màn hình là một portal, tổng hợp đầu vào là một portal khác hoặc libei, liệt kê cửa sổ là một giao thức riêng cho từng compositor... Mọi bước đều có sẵn sau khi cài đặt backend đúng, chọn phiên đúng, và hy vọng. Apple có thể ép buộc sự chú ý. Microsoft có thể thể chế hóa nó. Linux thì phải họp bàn để thống nhất.
Vấn đề là Linux có thể tạo ra hầu hết mọi thứ, nhưng không thể khiến hầu hết mọi người đồng ý quan tâm đến nó cùng một lúc. Đây là phần giữ cho câu chuyện "năm-của-Linux-desktop" sống sót, lâu sau khi Linux đã trở thành một máy tính để bàn hoàn toàn có thể sử dụng. StatCounter ghi nhận Linux chiếm 2,99% thị trường máy tính để bàn toàn cầu vào tháng 4 năm 2026. Bạn có thể cài Ubuntu lên ThinkPad và làm hầu hết những việc người bình thường cần, và mọi người确实 đang làm vậy. Máy tính để bàn đã khá tốt rồi.
Nhưng nhiệm vụ, theo định nghĩa ban đầu, sắp hoàn thành thì mục tiêu lại dịch chuyển.
Mục tiêu dịch chuyển vì tiêu chuẩn cho "máy tính để bàn có thể sử dụng" không còn là liệu bạn có thích sử dụng nó hay không. Tiêu chuẩn hiện tại là liệu một thứ không phải là bạn có thể sử dụng nó thay bạn hay không. Cây truy cập độ trung cao, tổng hợp đầu vào đáng tin cậy, liệt kê cửa sổ chuẩn hóa... Apple đã xây dựng chính xác điều này trong 30 năm, được trả tiền bởi Cupertino, gần như hoàn toàn vì lợi ích của người dùng khiếm thị. Công việc này bây giờ, vô tình và không thể đảo ngược, trở thành nền tảng cho các tác nhân AI, sắp đạt tới con số hàng tỷ.
Microsoft đã thiết kế phần lớn nó nhưng để một nửa nền tảng lơ là bài tập về nhà. Cộng đồng Linux đã xây dựng các phần của nó, rải rác trong các kho lưu trữ, lẻ tẻ, thường bằng các khoản tài trợ.
Đây không phải là khoảng trống mà một cộng đồng có thể lấp đầy bằng cách viết phần mềm tốt hơn. Đây là khoảng trống mất một thập kỷ nhân viên toàn thời gian để kiểm tra mọi nhãn trong mọi ứng dụng mặc định, một cơ chế thị trường trừng phạt bạn khi bạn không làm, và một quy trình xem xét tập trung để thực thi từ trên xuống.
Không cái nào tồn tại cho Linux. Và không cái nào sẽ đến.
Bài viết liên quan

Công nghệ
Kia EV9 gặp vấn đề nghiêm trọng về pin: Trải nghiệm của người dùng và cuộc chờ đợi kéo dài
28 tháng 5, 2026

Công nghệ
CEO Palantir: 10% thế giới "ghét chúng tôi một cách chuyên nghiệp"
05 tháng 5, 2026

Công nghệ
OpenAI tặng ưu đãi Codex đặc biệt cho 8.000 developer sau khi tiệc GPT-5.5 cháy vé
05 tháng 5, 2026
