Con trỏ chuột tích hợp AI của Google hiểu được "cái này" và "cái kia"

Google DeepMind đang nghiên cứu việc biến con trỏ chuột truyền thống thành công cụ AI có khả năng nhận biết ngữ cảnh, đánh dấu bước tiến lớn nhất sau hơn nửa thế kỷ. Hệ thống này cho phép người dùng kết hợp cử chỉ chỉ trỏ và giọng nói để ra lệnh trực tiếp mà không cần chuyển đổi giữa các ứng dụng.

Google không chuyên bắt chuột, nhưng họ đang cố gắng thiết kế ra một con chuột tốt hơn. Google DeepMind vừa công bố một nỗ lực nghiên cứu nhằm biến con trỏ chuột máy tính tiêu chuẩn thành một công cụ được hỗ trợ bởi AI và có khả năng nhận biết ngữ cảnh. Công ty mô tả đây là sự suy nghĩ lại lớn đầu tiên về con trỏ chuột trong hơn 50 năm qua.

Dự án do các nhà nghiên cứu Adrien Baranes và Rob Marchant thực hiện, đã tích hợp mô hình AI Gemini của Google với một con trỏ chuột thử nghiệm có khả năng nhận biết ngữ cảnh. Theo đó, hệ thống có thể hiểu người dùng đang click ở đâu, họ đang click vào cái gì và ý định đằng sau sự tương tác đó là gì.

Các nhà nghiên cứu chỉ ra rằng hiện nay vẫn còn sự ma sát trong cách mọi người tương tác với các công cụ AI. Hầu hết các trợ lý AI hiện nay đều nằm trong một cửa sổ riêng biệt, buộc người dùng phải sao chép, dán hoặc kéo nội dung vào giao diện trò chuyện trước khi nhận được sự giúp đỡ. Cách tiếp cận mới này nhằm đảo ngược động thái đó.

"Chúng tôi muốn điều ngược lại: một AI trực quan đáp ứng người dùng trên tất cả các công cụ họ sử dụng, mà không làm gián đoạn luồng công việc của họ," các nhà nghiên cứu stated trong bài đăng trên blog.

Con trỏ chuột này hoạt động cùng với micro của máy tính, cho phép Gemini "lắng nghe" trong khi người dùng chỉ trỏ. Điều này cho phép người dùng dùng các đại từ chỉ vật thể như "cái này" và "cái kia" để nói về các tính năng trên màn hình.

Trong một trang web demo, người dùng có thể di con trỏ qua một con cua và nói "di chuyển cái này đến đây", và hệ thống hiểu đủ ngữ cảnh để nắm lấy con cua và di chuyển nó đến vị trí con trỏ chỉ định.

Con chuột máy tính đầu tiên, một nguyên mẫu có một nút bấm với bánh xe kim loại cho trục x và y, được làm bằng gỗ vào năm 1964 và được cấp bằng sáng chế vào năm 1970 bởi các nhà phát minh Doug Engelbart và Bill English.

Engelbart đã dự đoán một ngày con người và máy tính sẽ tương tác dễ dàng và tự nhiên hơn, điều mà ông đã đề cập trong bài phát biểu nhận giải Lemelson-MIT năm 1997.

Duy trì luồng công việc

Tại Google, nhóm nghiên cứu đã đưa ra bốn nguyên tắc thiết kế hướng dẫn dự án.

Nguyên tắc đầu tiên, được gọi là "Duy trì luồng công việc", nêu rằng các khả năng của AI nên hoạt động trên tất cả các ứng dụng thay vì buộc người dùng vào các môi trường dành riêng cho AI. Theo nguyên tắc này, người dùng có thể chỉ vào một tệp PDF và yêu cầu tóm tắt, hoặc di chuột qua một bảng thống kê và yêu cầu biểu đồ, tất cả mà không cần rời khỏi ứng dụng hiện tại.

Nguyên tắc tiếp theo, "Kể và cho thấy", giải quyết gánh nặng của việc viết câu lệnh (prompt). Các nhà nghiên cứu cho biết một con trỏ được hỗ trợ bởi AI có thể nắm bắt ngữ cảnh thị giác và ngữ nghĩa từ màn hình, giảm nhu cầu người dùng phải viết hướng dẫn văn bản chi tiết cho mô hình.

Họ cũng phát triển con trỏ AI dựa trên cách con người tự nhiên giao tiếp bằng các cụm từ ngắn và cử chỉ như "cái này" và "cái kia". Hệ thống sẽ cho phép người dùng đưa ra các lệnh như "Sửa cái này" hoặc "Di chuyển cái kia đến đây" trong khi AI lấp đầy các khoảng trống ngữ cảnh.

Nguyên tắc thứ tư, "Biến điểm ảnh thành thực thể có thể hành động", cho phép con trỏ nhận ra các đối tượng có cấu trúc trong nội dung trên màn hình. Khả năng này có thể biến một bức ảnh chụp ghi chú viết tay thành danh sách việc cần làm tương tác, hoặc chuyển đổi khung hình video tạm dừng hiển thị một nhà hàng thành liên kết đặt bàn.

Trong bài viết, các nhà nghiên cứu cho biết Google DeepMind đã bắt đầu tích hợp các bài học rút ra vào sản phẩm. Một tính năng gọi là Magic Pointer sẽ sớm được ra mắt trên nền tảng laptop Googlebook sắp tới. Công ty cũng cho biết công nghệ này sẽ cho phép người dùng sử dụng Gemini trong Chrome chỉ vào các phần cụ thể của một trang web và đặt câu hỏi, thay vì phải soạn thảo một câu lệnh văn bản đầy đủ.

Các bản demo thử nghiệm của con trỏ AI hiện có sẵn thông qua Google AI Studio, nơi người dùng có thể thử nghiệm tương tác chỉnh sửa ảnh và bản đồ bằng cách sử dụng cách tiếp cận chỉ và nói.

Công ty cho biết họ kế hoạch tiếp tục thử nghiệm khái niệm này trên các nền tảng bổ sung, bao gồm cả Disco của Google Labs.

Con trỏ chuột tích hợp AI của Google hiểu được "cái này" và "cái kia"

Duy trì luồng công việc

Bài viết liên quan