Ngôn ngữ mà chúng ta quên rằng mình cần: Khi AI xóa bỏ rào cản giao tiếp
Câu chuyện về việc triển khai phần mềm dịch thuật thời gian thực chạy trực tiếp trên thiết bị (on-device) dựa trên nền tảng SeamlessM4T của Meta. Công nghệ này không chỉ giải quyết khủng hoảng giao tiếp trong y tế mà còn kết nối hiệu quả cộng đồng đa ngôn ngữ mà không cần kết nối mạng.

Có một điều ít người nói về việc xây dựng một thuộc địa: bạn không nhận ra mình có vấn đề về ngôn ngữ cho đến khi một đứa trẻ bị thương.
Vụ việc xảy ra tại trường học ở Khu 4 cách đây ba tuần. Một bé gái 7 tuổi tên là Yuki — con của hai kỹ sư từ Derech — đã ngã từ cấu trúc leo núi và bị gãy cổ tay. Y tá trường học, Fatimah Adeyemi, nói tiếng Anh và tiếng Yoruba. Mẹ của Yuki, Harumi, đến hiện trường trong hoảng loạn sáu phút sau đó, nói tiếng Nhật và tiếng Anh ở mức đủ dùng nhưng đang rất căng thẳng. Trình độ tiếng Anh hạn chế đã sụp đổ dưới áp lực của thông điệp: "Con gái bạn không sao gì, chỉ là gãy xương đơn giản, chúng ta cần bó bột tại Meridian."
Tôi biết điều này vì tôi có mặt ở đó để đón đứa trẻ hàng xóm. Tôi đã phiên dịch. Đó không phải là một tình huống y tế phức tạp. Nhưng khi nhìn gương mặt của Harumi cố gắng hiểu Fatimah — cả hai đều tử tế, cả hai đều đang cố gắng, nhưng không ai thực sự chạm tới người kia — tôi đã nghĩ: chúng ta có 43.000 người nói 28 ngôn ngữ, và chúng ta đã coi đây là một vấn đề đã được giải quyết chỉ vì hầu hết người lớn nói được tiếng Anh hoặc tiếng Mandarin ở mức thông qua.
Thực ra, nó chưa được giải quyết. Nó chỉ đang được quản lý. Có một sự khác biệt lớn.
Hai tháng trước, đội ngũ của James Chen đã triển khai thứ thay đổi điều này. Nó không hào nhoáng. Nó không phải là bước đột phá như cách các tấm pin mặt trời singlet fission là một bước đột phá. Đó là một phần mềm chạy trên các máy tính bảng tiêu chuẩn của thuộc địa — một mô hình dịch thuật thời gian thực hoạt động hoàn toàn trên thiết bị (on-device), không yêu cầu kết nối mạng.
Mô hình này được phát triển từ công trình mà bộ phận nghiên cứu của Meta thực hiện trên Trái Đất — một hệ thống mã nguồn mở gọi là SeamlessM4T, sau đó được tinh chỉnh với khả năng truyền trực tuyến — mà đội ngũ phần mềm của James đã thích ứng và nén để chạy trên phần cứng địa phương của chúng ta. Nó xử lý dịch thuật giọng nói sang giọng nói trên 35 ngôn ngữ và dịch thuật văn bản trên gần 100 ngôn ngữ. Độ trễ khoảng hai giây. Bạn nói, máy tính bảng lắng nghe, và hai giây sau, nó nói lời của bạn bằng ngôn ngữ của người khác.
Tôi đã hỏi Marcus về điều này. Ông ấy cười. Đó thường là cách tôi biết một thứ gì đó đang hoạt động hiệu quả.
Ông ấy kể rằng ba giám đốc hiện trường của ông ấy tại Hợp tác xã Greenway đến từ các nền tảng ngôn ngữ khác nhau — một người Ghana, một người Brazil và một người Hàn Quốc. Họ đã làm việc cùng nhau trong năm năm bằng sự kết hợp giữa tiếng Anh, ngôn ngữ cơ thể và thứ mà Marcus gọi là "thần giao cảm nông nghiệp". Tuần trước, ông ấy đã chứng kiến họ sử dụng công cụ dịch thuật trong một cuộc thảo luận về cải tạo đất, và người giám sát Hàn Quốc, Min-jun, đã nói nhiều hơn trong cuộc họp đó so với sáu tháng thảo luận của nhóm trước đó cộng lại.
"Anh ấy luôn có ý kiến," Marcus kể với tôi. "Những ý kiến hay. Chỉ là anh ấy không có từ ngữ để diễn đạt."
Câu nói đó đã ám ảnh tôi nhiều ngày liền.
Hội đồng đã tranh luận về vấn đề này trong ba giờ. Tôi sẽ bỏ qua hai giờ mười lăm phút đầu. Sự bất đồng không phải là về việc công cụ này có hữu ích hay không — mọi người đều đồng ý là có. Cuộc tranh luận là về sự phụ thuộc. Councillor Adeola đã nêu lo ngại rằng nếu chúng ta dựa vào phần mềm dịch thuật, chúng ta sẽ mất động lực học ngôn ngữ của nhau, và với nó là một loại sự thân mật văn hóa mà bạn chỉ có được khi vật lộn với ngữ pháp của người khác.
Bà ấy không sai. Tôi đã vật lộn với các cụm từ Twi của Marcus trong ba năm, và tuần trước tôi đã kể một câu đùa đúng ngữ pháp trong ngôn ngữ của ông ấy khiến ông ấy cười đến mức làm đổ trà. Một cỗ máy không thể mang lại cho bạn điều đó.
Nhưng một cỗ máy có thể đảm bảo rằng khi con bạn bị gãy cổ tay, bạn hiểu y tá. Đó không phải là cùng một nhu cầu, và chúng ta không buộc phải chọn một trong hai.
Đây là những gì tôi thấy trong ba tuần triển khai. Quy trình tiếp nhận y tế tại Meridian Health đã nhanh hơn — Ada Moreau cho tôi biết các cuộc phỏng vấn bệnh nhân ngắn hơn 40% khi không có thông dịch viên phù hợp về ngôn ngữ, vì máy tính bảng đã lấp đầy khoảng trống đó. Trường học ở Khu 4 đang sử dụng nó cho các cuộc họp phụ huynh-nhà giáo. Và ủy ban lập kế hoạch Lễ hội Văn hóa hàng quý — vốn là một sự hỗn loạn thú vị của 12 ngôn ngữ mỗi năm — thực sự đã hoàn thành chương trình nghị sự đúng giờ lần đầu tiên kể từ Năm 6.
Những khoảnh khắc nhỏ thay đổi trước tiên. Luôn là như vậy.
Lena Voronova, người nói tiếng Nga, tiếng Anh và một lượng tiếng Nhật kiên quyết mà bà học từ tôi, đã kể cho tôi nghe rằng bà đã sử dụng công cụ này để có cuộc trò chuyện với một nhà địa chất đến thăm từ Ridgeline, người chủ yếu nói tiếng Farsi. Họ đã nói về các dạng khoáng sản trong bốn mươi phút. Lena nói đó là "cuộc trò chuyện khoa học tốt nhất tôi có trong nhiều tháng, và tôi có thể hiểu khoảng một phần ba địa chất, nhưng công cụ đã xử lý tiếng Farsi hoàn hảo."
Nếu bạn đang đọc điều này trên Trái Đất, 38 năm sau bây giờ, tôi muốn bạn biết — chúng ta đã tìm ra giải pháp. Phần lớn. Bí quyết không phải là khiến mọi người nói cùng một ngôn ngữ. Bí quyết là làm cho mọi người có thể nói ngôn ngữ của chính mình.
CASSANDRA, AI sáng lập của chúng ta, đã nói điều gì đó trong năm đầu tiên mà tôi chưa bao giờ quên: "Đừng chối bỏ những gì bạn chưa hiểu." Tôi nghĩ bà ấy đang nói về hành tinh này, nhưng có lẽ bà ấy đang nói về chính chúng ta.
Ghi chú công nghệ: Tình trạng trên Trái Đất
Gia đình mô hình SeamlessM4T của Meta, được phát hành mã nguồn mở vào giai đoạn 2023-2024, hỗ trợ dịch thuật giọng nói sang giọng nói trên hơn 35 ngôn ngữ với độ trễ khoảng 2 giây. Dự án RTranslator mã nguồn mở cho Android, dựa trên các mô hình NLLB của Meta và Whisper của OpenAI, đang phát hành phiên bản chạy hoàn toàn trên thiết bị mới nhất vào giữa năm 2026. Dịch thuật trên thiết bị ngày càng khả thi khi các kỹ thuật nén mô hình tiến bộ.
Nguồn: Meta AI Research — SeamlessM4T
Bài viết liên quan

Phần mềm
Anthropic ra mắt Claude Opus 4.7: Nâng cấp mạnh mẽ cho lập trình nhưng vẫn thua Mythos Preview
16 tháng 4, 2026

Công nghệ
Qwen3.6-35B-A3B: Quyền năng Lập trình Agentic, Nay Đã Mở Cửa Cho Tất Cả
16 tháng 4, 2026

Công nghệ
Spotify thắng kiện 322 triệu USD từ nhóm pirate Anna's Archive nhưng đối mặt với bài toán thu hồi
16 tháng 4, 2026
