Perplexity AI ra mắt bộ điều phối suy luận lai, tự động cân bằng giữa thiết bị và đám mây tại Computex 2026

Tại Computex 2026, Perplexity AI đã công bố bộ điều phối suy luận lai đầu tiên, cho phép phần mềm tự động quyết định chạy tác vụ AI trên thiết bị hay đám mây theo thời gian thực. Hệ thống này nhằm cân bằng giữa quyền riêng tư dữ liệu và sức mạnh tính toán, được trình diễn trên chip Intel Core Ultra Series 3. Tính năng mới dự kiến sẽ được tung ra trong vài tuần tới.

Tại Computex 2026, Perplexity AI — startup tìm kiếm đang tăng trưởng nhanh với định giá 20 tỷ USD — đã công bố cái mà họ gọi là bộ điều phối suy luận lai cục bộ-máy chủ đầu tiên. Sản phẩm này là một phần mềm có khả năng tự chủ quyết định theo thời gian thực, ngay giữa khi đang thực hiện nhiệm vụ, xem khối lượng công việc AI nào nên giữ lại trên thiết bị của người dùng và khối lượng nào cần được định tuyến tới các mô hình tiên tiến trên đám mây.

CEO Aravind Srinivas đã trình diễn hệ thống này trên sân khấu cùng với CEO Intel Lip-Bu Tan trong bài phát biểu chính của Intel. Ông sử dụng tác nhân "Personal Computer" của Perplexity để xử lý các tài liệu thỏa thuận mật. Trong buổi trình diễn, các mô hình cục bộ chạy trên chip Intel Core Ultra Series 3 đã xác định thông tin nào nên được giữ lại trên thiết bị và thông tin nào có thể được gửi đến các mô hình dựa trên đám mây. Ông Srinivas cho biết cách tiếp cận này giúp cân bằng giữa trí thông minh, độ chính xác, quyền riêng tư và chi phí.

Điểm mấu chốt ở đây không phải là một mô hình có thể chạy cục bộ — vì hàng chục công cụ đã làm được điều đó — mà là hệ thống của Perplexity tự đưa ra quyết định định tuyến, nhiệm vụ này qua nhiệm vụ khác, mà không yêu cầu người dùng phải chọn trước. Dữ liệu nhạy cảm như hồ sơ tài chính hoặc thông tin sức khỏe sẽ được giữ lại trên máy cục bộ; trong khi các tác vụ suy luận nặng hơn yêu cầu mô hình quy mô tiên tiến sẽ được gửi lên đám mây. Một nhiệm vụ, nhiều địa điểm thực thi, điều phối tự động.

"Chưa có sản phẩm nào làm được điều này trước đây", một phát ngôn viên của Perplexity cho biết trong email gửi tới VentureBeat. Sản phẩm hiện chưa sẵn sàng cho người dùng; theo công ty, tính năng suy luận lai sẽ được ra mắt trong vài tuần tới.

Từ tác nhân trên đám mây đến điều phối AI trên thiết bị

Để hiểu tại sao buổi trình diễn tại Computex lại quan trọng, chúng ta cần xem lại lộ trình sản phẩm mà Perplexity đã xây dựng kể từ đầu năm nay.

Vào ngày 25 tháng 2, Perplexity đã ra mắt Computer, một tác nhân AI đa mô hình điều phối 19 mô hình AI khác nhau để hoàn thành các tác vụ phức tạp, kéo dài thay mặt người dùng. Hệ thống này chạy hoàn toàn trên đám mây, chia nhỏ các mục tiêu thành các tác vụ con và định tuyến từng tác vụ đến bất kỳ mô hình nào — Claude, Gemini, GPT, Grok hoặc khác — phù hợp nhất cho công việc đó. Computer của Perplexity đã thống nhất mọi khả năng AI hiện tại vào một hệ thống duy nhất, hoạt động như một công nhân kỹ thuật số đa mục đích sử dụng cùng các giao diện mà người dùng sử dụng.

Sau đó, vào tháng 3, Perplexity đã giới thiệu Personal Computer tại hội nghị nhà phát triển Ask 2026 đầu tiên. Sản phẩm này được ra mắt dưới dạng ứng dụng Mac mới với hỗ trợ tác nhân AI lai cục bộ-đám mây, mà Perplexity mô tả là "người điều phối cá nhân" kết hợp môi trường cục bộ và máy chủ để bảo mật và năng suất. Personal Computer có thể truy cập hệ thống tệp của Mac và các ứng dụng gốc để tạo và thực hiện toàn bộ quy trình làm việc, với các tệp được tạo trong vùng cách ly an toàn và mọi hành động đều có thể kiểm toán và hoàn tác.

Những gì ông Srinivas trình diễn tại Computex đã mở rộng kiến trúc này theo một cách cơ bản. Trước đây, ngay cả sản phẩm Personal Computer cũng phân chia lao động theo các ranh giới tương đối rõ ràng: truy cập tệp cục bộ trên thiết bị, tính toán nặng trên máy chủ của Perplexity.

Bộ điều phối suy luận lai mới trao cho chính hệ thống khả năng suy luận về nơi mỗi phần của một nhiệm vụ nên được thực thi — không chỉ là mô hình nào sẽ sử dụng, mà là vị trí vật lý nào sẽ xử lý nó. Hệ thống reportedly sẽ xin phép người dùng trước khi gửi các tác vụ nhạy cảm lên đám mây, một lựa chọn thiết kế giải quyết một trong những lo ngại chính của doanh nghiệp về AI tác nhân: quản trị dữ liệu.

Tại sao chip RTX Spark của Nvidia và silicon mới của Intel lại làm cho thời điểm này mang tính chiến lược

Thời điểm của buổi trình diễn không phải là ngẫu nhiên. Computex 2026 đã bị thống trị bởi một chủ đề duy nhất: AI trên thiết bị. Chỉ vài giờ trước bài phát biểu chính của Intel, CEO Nvidia Jensen Huang đã công bố RTX Spark, một siêu chip mới dựa trên Arm mà công ty định vị là nền tảng cho một thế hệ máy tính Windows AI mới.

Ở hiệu suất tối đa, siêu chip RTX Spark cung cấp lên đến 20 lõi CPU Arm, GPU Blackwell với 6.144 lõi CUDA, 128GB RAM LPDDR5X và băng thông bộ nhớ lên đến 300 GB/s — đủ sức mạnh và bộ nhớ cho các tác nhân AI và các mô hình 120 tỷ tham số với độ dài ngữ cảnh kéo dài đến một triệu token. Các hệ thống RTX Spark sẽ bắt đầu xuất hiện vào mùa thu.

Intel, không muốn thua kém, đã sử dụng bài phát biểu chính của mình để giới thiệu bộ xử lý Xeon 6+ với 288 lõi hiệu suất được xây dựng trên quy trình 18A cho trung tâm dữ liệu, và định vị chip Core Ultra Series 3 của mình là silicon khách hàng giúp suy luận lai có thể thực hiện trên PC.

Bộ điều phối lai của Perplexity nằm ở giao điểm của cả hai chiến lược này. Nếu hệ thống hoạt động như quảng cáo, nó tạo ra động lực kinh tế trực tiếp cho người dùng — và cuối cùng là các doanh nghiệp — để đầu tư vào silicon cục bộ mạnh mẽ hơn. Chip trên thiết bị càng mạnh mẽ, càng có nhiều suy luận có thể chạy cục bộ, giảm chi phí đám mây và cải thiện độ trễ cho các khối lượng công việc nhạy cảm. Động lực này mang lại lợi ích cho Nvidia, Intel và mọi nhà sản xuất chip khác đang cạnh tranh cho các khe cắm PC AI.

Các tác động mở rộng xa hơn nhiều so với kinh tế chip. "Khi chip trở nên mạnh mẽ hơn, nhiều trí thông minh hơn sẽ chuyển sang máy của một người, cùng với suy luận máy chủ cho các tác vụ phức tạp vẫn cần các mô hình tiên tiến", một phát ngôn viên của Perplexity cho biết. "Công việc nhạy cảm và chủ quyền có thể giữ lại cục bộ, điều này thay đổi nhu cầu về hạ tầng cấp quốc gia khổng lồ."

Khẳng định cuối cùng — về hạ tầng chủ quyền — là điều gây tranh cãi nhất. Các quốc gia từ UAE đến Pháp và Ấn Độ đã đầu tư hàng tỷ USD vào năng lực tính toán AI trong nước một phần dựa trên giả định rằng dữ liệu nhạy cảm phải nằm trong biên giới của họ, nghĩa là xây dựng hoặc mua quyền truy cập vào các trung tâm dữ liệu cục bộ. Nếu suy luận có ý nghĩa có thể chạy trên thiết bị của người dùng cuối mà không có dữ liệu rời khỏi máy, phương thức tính toán sẽ thay đổi. Nó không loại bỏ nhu cầu về trung tâm dữ liệu, nhưng có thể làm giảm sự cấp bách của việc xây dựng.

Kiến trúc không phụ thuộc vào mô hình giúp suy luận lai trở nên khả thi

Cú đánh suy luận lai của Perplexity dựa trên cùng một cược kiến trúc mà công ty đã thực hiện trong cả năm: rằng lớp điều phối quan trọng hơn bất kỳ mô hình đơn lẻ nào. Đối với các kỹ sư AI, điều này báo hiệu một sự thay đổi cơ bản — lớp điều phối có thể quan trọng hơn chính các mô hình.

Sự hiểu biết chính là sự tách biệt mối quan tâm: lớp điều phối xử lý phân tích nhiệm vụ, quản lý trạng thái và điều phối công cụ, trong khi lớp mô hình xử lý các tính toán cụ thể. Sự tách rời này có nghĩa là các nhóm có thể hoán đổi mô hình khi các lựa chọn tốt hơn xuất hiện mà không cần thiết kế lại toàn bộ hệ thống.

Perplexity đã dựa nhiều vào triết lý này. Công ty đang tập trung gói các mô hình tiên tiến trong trải nghiệm người dùng thân thiện, lập luận rằng có giá trị trong việc điều phối nhiều LLM bên thứ ba để có được câu trả lời hiệu quả về chi phí và chính xác nhất cho các truy vấn. Theo quan điểm của Perplexity, các mô hình đang chuyên môn hóa, không phải là hàng hóa đại trà.

Phần mở rộng suy luận lai đưa logic đó đi một bước xa hơn. Perplexity hiện đang điều phối không chỉ trên các mô hình mà còn trên các vị trí tính toán vật lý — chọn mô hình nào chạy ở đâu. Một mô hình cục bộ nhẹ có thể xử lý tác vụ tóm tắt tài liệu nhạy cảm về quyền riêng tư, trong khi một mô hình đám mây tiên tiến giải quyết suy luận phức tạp cần thiết để phân tích bản tóm tắt đó trên bối cảnh thị trường rộng lớn hơn. Người điều phối quản lý việc chuyển giao.

Đây là một tuyên bố đầy tham vọng về mặt kỹ thuật. Để làm cho nó hoạt động đáng tin cậy trong sản xuất sẽ yêu cầu người điều phối đánh giá chính xác độ phức tạp của từng tác vụ con, hiểu độ nhạy cảm của dữ liệu liên quan, biết các khả năng và đặc tính độ trễ của bất kỳ phần cứng cục bộ nào mà người dùng có, và quản lý trạng thái của một nhiệm vụ có thể đang nảy giữa các môi trường giữa quá trình thực thi.

Dễ dàng tưởng tượng các trường hợp cạnh tranh mà logic định tuyến thất bại, gửi cái gì đó nhạy cảm lên đám mây, hoặc làm giảm hiệu suất bằng cách gán một tác vụ cho một mô hình cục bộ yếu. Perplexity cho biết hệ thống sẽ không phụ thuộc vào chip, mặc dù bản demo Computex ban đầu chạy trên silicon của Intel. Công ty đã bày tỏ sự nhiệt tình trong các truyền thông của mình về các chip AI mới được công bố tại Computex tuần này, gợi ý rằng họ có ý định tối ưu hóa trên nhiều nhà cung cấp.

Định giá 20 tỷ USD, chín vụ kiện và áp lực phải giao kết quả

Thông báo suy luận lai đến vào một thời điểm phức tạp đối với Perplexity. Công ty đã có quỹ đạo tăng trưởng đáng kể: Họ huy động được 200 triệu USD vốn mới với định giá 20 tỷ USD, chỉ hai tháng sau khi huy động 100 triệu USD với định giá 18 tỷ USD. Kể từ khi thành lập ba năm trước, công ty AI đang tăng trưởng nhanh này đã huy động tổng cộng 1,5 tỷ USD vốn, theo dữ liệu của PitchBook.

Tuy nhiên, công ty cũng phải đối mặt với một chồng các thách thức pháp lý ngày càng lớn. Chín tổ chức đã đệ đơn kiện tích cực chống lại Perplexity vì cáo buộc vi phạm bản quyền và nhãn hiệu tính đến ngày 31 tháng 5 năm 2026: CNN, New York Times, News Corp và Dow Jones, New York Post, Chicago Tribune, Encyclopedia Britannica, Merriam-Webster, Reddit và Yomiuri Shimbun của Nhật Bản. Vụ kiện của CNN, đệ trình chỉ vài ngày trước vào ngày 28 tháng 5, là mới nhất, cáo buộc Perplexity thu thập hơn 17.000 câu chuyện, ảnh, video và nội dung khác của CNN và sử dụng vật liệu đó để đào tạo sản phẩm của họ. Perplexity đã phản hồi với một thông điệp nhất quán. "Bạn không thể có bản quyền đối với các sự thật", giám đốc truyền thông Jesse Dwyer của công ty cho biết trong một tuyên bố.

Các nhà xuất bản khác đã chọn hợp tác thay vì kiện tụng. Time, Gannett, Le Monde và Der Spiegel đã ký các thỏa thuận cấp phép với Perplexity. Công ty đã ra mắt Chương trình Nhà xuất bản vào giữa năm 2024, trong đó các phương tiện tham gia nhận được một phần doanh thu được tạo ra khi nội dung của họ được trích dẫn trong câu trả lời của Perplexity.

Theo CNBC, Dmitry Shevelenko, giám đốc thương mại của Perplexity, đã xác nhận tại thời điểm đó rằng tỷ lệ cố định là một con số hai chữ số nhưng từ chối chia sẻ cụ thể. Theo TechCrunch báo cáo vào tháng 12 năm 2024, các nhà xuất bản bổ sung bao gồm LA Times, Adweek, The Independent và Lee Enterprises sau đó đã tham gia chương trình, mặc dù không phải không có tranh cãi nội bộ — các phóng viên tại một số phương tiện nói với TechCrunch rằng họ không được thông báo về các thỏa thuận trước khi chúng được công bố công khai.

Rủi ro pháp lý không phải là tồn tại, nhưng là đáng kể, và khi các doanh nghiệp ngày càng đánh giá các công cụ của Perplexity cho các quy trình công việc nhạy cảm — chính là trường hợp sử dụng mà hệ thống suy luận lai được thiết kế để phục vụ — các câu hỏi chưa được giải quyết về quyền sở hữu trí tuệ có thể làm giảm sự áp dụng.

Suy luận lai giúp sắc bén tham vọng doanh nghiệp của Perplexity

Bản demo suy luận lai nên được đọc cùng với nỗ lực rộng lớn hơn của Perplexity vào phần mềm doanh nghiệp, một sự chuyển đổi đã tăng tốc đáng kể trong năm nay. Tại hội nghị nhà phát triển Ask 2026 vào tháng 3, VentureBeat báo cáo rằng Perplexity đã công bố Computer for Enterprise, định vị startup ba năm này là đối thủ trực tiếp của Microsoft, Salesforce và ngăn xếp phần mềm doanh nghiệp kế thừa.

Ngoài hơn 100 tích hợp hiện có của Computer, khách hàng doanh nghiệp đã được truy cập các kết nối cấp doanh nghiệp cho Snowflake, Datadog, Salesforce, SharePoint và HubSpot, với các quản trị viên có thể cài đặt các kết nối tùy chỉnh thông qua Giao thức Ngữ cảnh Mô hình. Gói cũng bao gồm các mẫu quy trình làm việc được xây dựng cho mục đích cụ thể để xem xét hợp đồng pháp lý, hỗ trợ kiểm toán tài chính, chuẩn bị cuộc gọi bán hàng và phân loại vé hỗ trợ khách hàng, cùng với chứng nhận SOC 2 Type II và tùy chọn lưu dữ liệu bằng không.

Suy luận lai làm sâu sắc thêm lời chào mời doanh nghiệp này đáng kể. Đối với các ngành được quy định — dịch vụ tài chính, chăm sóc sức khỏe, quốc phòng, pháp lý — khả năng giữ dữ liệu nhạy cảm trên thiết bị cục bộ trong khi vẫn truy cập sức mạnh suy luận của các mô hình đám mây tiên tiến không phải là thứ "có thì tốt", mà là một yêu cầu tuân thủ tiềm năng.

Ví dụ, một ngân hàng đầu tư phân tích các tài liệu thỏa thuận bí mật có thể không thể gửi vật liệu đó đến đám mây của bên thứ ba theo các thỏa thuận xử lý dữ liệu hiện có. Một hệ thống có thể chạy phân tích nhạy cảm cục bộ trong khi định tuyến các tác vụ phân tích không nhạy cảm lên đám mây cung cấp một con đường trung gian. IDC dự báo sự gia tăng gấp mười lần việc sử dụng tác nhân và sự tăng trưởng nghìn lần nhu cầu suy luận vào năm 2027, và bảo mật và quản trị được xếp hạng là yếu tố đánh giá hàng đầu cho các nền tảng tác nhân doanh nghiệp, theo khảo sát của CrewAI. Suy luận lai nói trực tiếp đến ưu tiên đó.

Cuộc đua quyết định nơi AI thực sự chạy mới chỉ bắt đầu

Một số câu hỏi sẽ xác định liệu bản demo Computex của Perplexity trở thành một sản phẩm mang tính bước ngoặt hay một nguyên mẫu hấp dẫn.

Các đặc tính hiệu suất thực tế vẫn chưa được kiểm tra bên ngoài môi trường sân khấu được kiểm soát — cách logic định tuyến xử lý các cấu hình phần cứng khác nhau, kết nối mạng không đáng tin cậy và các phân loại độ nhạy cảm dữ liệu mơ hồ là một câu hỏi mở.

Phản hồi cạnh tranh cũng quan trọng: Google, Microsoft, Apple và OpenAI đều đang xây dựng các kiến trúc AI cục bộ-đám mây của riêng họ. Apple Intelligence đã định tuyến một số tác vụ cục bộ và một số đến máy chủ Đám mây Riêng tư, Gemini Nano của Google chạy trên thiết bị, và máy tính Copilot+ của Microsoft được thiết kế xung quanh khả năng suy luận cục bộ. Tuy nhiên, không hệ thống nào trong số này hiện nay cung cấp loại định tuyến cấp nhiệm vụ động, tự chủ mà Perplexity tuyên bố.

Ngay cả khi công nghệ hoạt động như được trình diễn, vẫn còn câu hỏi liệu doanh nghiệp có thể bắt kịp với tham vọng hay không. Với định giá 20 tỷ USD và khoảng 200 triệu USD doanh thu định kỳ hàng năm, Perplexity giao dịch ở mức khoảng 100 lần doanh thu, mức phí bảo hiểm yêu cầu tăng trưởng mạnh mẽ để biện minh. Mục tiêu doanh thu 656 triệu USD năm 2026 của ban quản lý ngụ ý tăng trưởng 230%, tạo ra áp lực thực thi đáng kể.

Perplexity đã xây dựng doanh nghiệp của mình dựa trên cược rằng tương lai thuộc về không phải bất kỳ mô hình đơn lẻ nào mà là hệ thống điều phối tất cả chúng. Tại Computex, công ty đã mở rộng cược đó từ lớp phần mềm sang lớp vật lý — từ mô hình nào sang máy nào. Trong cuộc đua không ngừng nghỉ của ngành công nghiệp AI để xây dựng các trung tâm dữ liệu lớn hơn và đào tạo các mô hình lớn hơn, Perplexity vừa lập luận rằng máy tính quan trọng nhất trong ngăn xếp có thể là chiếc máy đang ngồi trên bàn của bạn.