Tái định nghĩa con trỏ chuột cho kỷ nguyên trí tuệ nhân tạo

Google DeepMind đang phát triển một loại con trỏ chuột được tích hợp AI, có khả năng hiểu ngữ cảnh và ý định của người dùng. Mục tiêu là tạo ra sự tương tác trực quan hơn, không làm gián đoạn luồng làm việc trên mọi ứng dụng nhờ sức mạnh của mô hình Gemini.

Con trỏ chuột đã là người bạn đồng hành quen thuộc trên màn hình máy tính trong hơn nửa thế kỷ, hiện diện trên mọi trang web, tài liệu và quy trình làm việc. Mặc dù công nghệ đã có những bước tiến vượt bậc, nhưng bản thân con trỏ chuột gần như chưa thay đổi.

Tại Google DeepMind, chúng tôi đang khám phá các khả năng mới được hỗ trợ bởi AI để giúp con trỏ không chỉ hiểu được nó đang chỉ vào cái gì, mà còn hiểu tại sao thứ đó lại quan trọng với người dùng.

Màn hình minh họa giao diện con trỏ AI

Mục tiêu của chúng tôi là giải quyết một sự thất thường phổ biến: vì các công cụ AI hiện nay thường sống trong một cửa sổ riêng biệt, người dùng buộc phải kéo nội dung của mình vào đó. Chúng tôi mong muốn điều ngược lại: một AI trực quan, sẵn sàng phục vụ người dùng trên mọi công cụ họ sử dụng mà không làm gián đoạn quy trình làm việc.

Ví dụ, hãy tưởng tượng bạn chỉ vào một tòa nhà trong một bức ảnh và ra lệnh "Cho tôi xem chỉ đường". Không cần thao tác thêm khi hệ thống AI đã hiểu ngữ cảnh đó.

Hôm nay, chúng tôi phác thảo các nguyên tắc nền tảng định hướng tư duy của chúng tôi về các giao diện người dùng trong tương lai và chia sẻ các bản demo thử nghiệm về con trỏ được hỗ trợ bởi AI, sử dụng mô hình Gemini.

Các nguyên tắc tương tác

Chúng tôi đã phát triển bốn nguyên tắc giúp chuyển chuyển sự vất vả trong việc chuyển tải ngữ cảnh và ý định từ người dùng sang máy tính, thay thế các lệnh văn bản dài dòng bằng các tương tác đơn giản và trực quan hơn.

Duy trì mạch làm việc

Các khả năng AI nên hoạt động trên mọi ứng dụng, chứ không buộc người dùng vào những "đường vòng AI" giữa chúng. Bản mẫu con trỏ AI của chúng tôi có sẵn ở bất cứ nơi nào người dùng đang làm việc.

Ví dụ, họ có thể chỉ vào một tệp PDF và yêu cầu tóm tắt dưới dạng gạch đầu dòng để dán trực tiếp vào email, di chuột qua một bảng thống kê và yêu cầu phiên bản biểu đồ tròn, hoặc làm nổi bật một công thức nấu ăn và yêu cầu nhân đôi số lượng nguyên liệu.

Chỉ và nói

Các mô hình AI hiện nay đòi hỏi hướng dẫn chính xác. Để có câu trả lời tốt, người dùng phải viết ra một câu lệnh (prompt) chi tiết. Con trỏ được hỗ trợ bởi AI sẽ đơn giản hóa quá trình này bằng cách nắm bắt mượt mà ngữ cảnh thị giác và ngữ nghĩa xung quanh con trỏ, để máy tính "nhìn" và hiểu những gì quan trọng với người dùng.

Trong hệ thống thử nghiệm của chúng tôi, bạn chỉ cần chỉ trỏ, và AI sẽ biết chính xác người dùng cần trợ giúp với từ nào, đoạn nào, phần nào của hình ảnh hoặc khối mã nào.

Con trỏ AI tương tác với các phần tử trên màn hình

Tận dụng sức mạnh của "Cái này" và "Cái kia"

Trong các tương tác hàng ngày, con người hiếm khi nói bằng những đoạn văn dài dòng. Chúng ta có thể nói, "Sửa cái này", "Chuyển cái kia sang đây", hoặc "Cái này có nghĩa là gì?" — đồng thời dựa vào cử chỉ vật lý và ngữ cảnh chung để lấp đầy mọi khoảng trống trong sự hiểu biết.

Một hệ thống AI hiểu được sự kết hợp giữa ngữ cảnh, chỉ trỏ và lời nói sẽ cho phép người dùng đưa ra các yêu cầu phức tạp bằng cách tắt thuật ngữ ngắn gọn tự nhiên, không cần thao tác gõ phím phức tạp.

Biến điểm ảnh thành thực thể hành động

Trong nhiều thập kỷ, máy tính chỉ theo dõi vị trí chúng ta đang chỉ tới. Giờ đây, AI có thể hiểu người dùng đang chỉ vào cái gì. Điều này biến các điểm ảnh thành các thực thể có cấu trúc, chẳng hạn như địa điểm, ngày tháng và vật thể, mà người dùng có thể tương tác ngay lập tức.

Một bức ảnh chụp ghi chú nháp sẽ trở thành danh sách việc cần làm tương tác; một khung hình tạm dừng trong video du lịch sẽ trở thành liên kết đặt bàn tại nhà hàng đó.

Xây dựng công nghệ thích nghi với hành vi của con người — thay vì buộc người dùng phải thích nghi với nó — sẽ mở ra tương lai nơi hợp tác với AI thực sự trực quan, trôi chảy và liền mạch.

Áp dụng vào sản phẩm thực tế

Chúng tôi đang tích hợp các nguyên tắc này để tái định nghĩa việc chỉ trỏ trong Chrome và trải nghiệm máy tính xách tay Googlebook mới của chúng tôi.

Ngay từ hôm nay, thay vì viết một câu lệnh phức tạp, bạn có thể dùng con trỏ để hỏi Gemini trên Chrome về phần của trang web mà bạn quan tâm. Ví dụ, bạn có thể chọn một vài sản phẩm trên một trang và yêu cầu so sánh, hoặc chỉ vào nơi bạn muốn hình dung chiếc ghế sofa mới trong phòng khách của mình.

Tương tự, chúng tôi sẽ sớm ra mắt Magic Pointer trên Googlebook, cho phép người dùng tận dụng sức mạnh của Gemini ngay đầu ngón tay để có trải nghiệm trực quan hơn. Vì còn rất nhiều ứng dụng tiềm năng khác, chúng tôi sẽ tiếp tục thử nghiệm các khái niệm trong tương lai trên các nền tảng của mình, bao gồm Disco của Google Labs.