SenseTime ra mắt mô hình AI hình ảnh SenseNova U1: Tối ưu tốc độ, tương thích chip Trung Quốc

SenseTime vừa công bố mô hình AI mã nguồn mở SenseNova U1, được thiết kế để tạo và diễn giải hình ảnh nhanh hơn nhiều so với các đối thủ Mỹ. Điểm nổi bật là khả năng xử lý trực tiếp hình ảnh mà không cần chuyển đổi sang văn bản, giúp giảm tải tính toán và tương thích tốt với các loại chip sản xuất tại Trung Quốc trước các lệnh trừng phạt của Mỹ.

SenseTime, công ty trí tuệ nhân tạo của Trung Quốc nổi tiếng với công nghệ nhận diện khuôn mặt, đã tung ra một mô hình mã nguồn mở mới vào thứ Ba vừa qua. Công ty này khẳng định SenseNova U1 có khả năng tạo và diễn giải hình ảnh nhanh hơn đáng kể so với các mô hình hàng đầu do các đối thủ Mỹ phát triển. Động thái này được xem là nỗ lực của SenseTime nhằm giành lại vị thế đã mất trong cuộc đua phát triển AI tại Trung Quốc.

SenseNova U1

Xử lý trực tiếp hình ảnh

Điểm mạnh nhất của SenseNova U1 nằm ở khả năng "đọc" hình ảnh mà không cần chuyển đổi chúng sang văn bản trước. Điều này giúp tăng tốc độ xử lý và giảm lượng sức mạnh tính toán cần thiết.

"Toàn bộ quá trình suy luận của mô hình không còn bị giới hạn ở văn bản. Nó có thể suy luận trực tiếp bằng hình ảnh," Dahua Lin, đồng sáng lập và nhà khoa học trưởng của SenseTime, chia sẻ trong một cuộc phỏng vấn.

Ông Lin, người cũng là giáo sư kỹ thuật thông tin tại Đại học Trung Quốc Hong Kong, cho rằng các mô hình có khả năng xử lý hình ảnh trực tiếp sẽ giúp robot hiểu rõ hơn về thế giới vật lý trong tương lai.

Tương thích với chip nội địa

Tương tự như mô hình flagship mới nhất của DeepSeek, SenseTime khẳng định U1 có thể hoạt động dựa trên các chip do Trung Quốc sản xuất.

"Một số nhà sản xuất chip nội địa Trung Quốc đã hoàn tất việc tối ưu hóa tính tương thích với mô hình mới của chúng tôi," ông Lin nói. Ngày ra mắt, 10 nhà thiết kế chip Trung Quốc, bao gồm Cambricon và Biren Technology, đã công bố phần cứng của họ hỗ trợ U1.

Sự linh hoạt này là rất quan trọng khi các biện pháp kiểm soát xuất khẩu của Mỹ đang hạn chế các công ty Trung Quốc tiếp cận với những chip AI tiên tiến nhất thế giới, đặc biệt là chip dùng cho huấn luyện, hiện chủ yếu do các công ty phương Tây như Nvidia phát triển.

"Chúng tôi sẽ tiếp tục thúc đẩy việc huấn luyện trên nhiều loại chip khác nhau," ông Lin nói. Tuy nhiên, ông cũng thừa nhận rằng SenseTime "có thể vẫn cần sử dụng những chip tốt nhất để đảm bảo tốc độ lặp lại của mình."

Chiến lược mã nguồn mở

SenseTime đã phát hành U1 miễn phí trên Hugging Face và GitHub, một dấu hiệu khác cho thấy các công ty Trung Quốc đang trở thành những người đóng góp tích cực nhất cho AI mã nguồn mở.

Được thành lập năm 2014, SenseTime từng là nhà lãnh đạo thế giới về thị giác máy tính (computer vision). Tuy nhiên, khi ChatGPT và các hệ thống AI dựa trên xử lý ngôn ngữ tự nhiên trở thành xu hướng nóng nhất ngành công nghệ, SenseTime bắt đầu gặp khó khăn trong việc tạo lợi nhuận và bị tụt hậu so với các startup AI mới hơn của Trung Quốc như DeepSeek và MiniMax.

SenseTime hy vọng việc công khai SenseNova-U1 để bất kỳ ai cũng có thể sử dụng sẽ giúp họ bắt kịp cả các đối thủ AI trong nước và phương Tây. Ông Lin cho biết công ty đã đưa ra quyết định tập trung vào mã nguồn mở vào năm ngoái nhờ những phản hồi hữu ích từ các nhà nghiên cứu, giúp công ty lặp lại nhanh hơn.

"Trong thời đại ngày nay, việc mã nguồn mở hay đóng nguồn không phải là yếu tố quyết định thắng thua; tốc độ lặp lại mới là chìa khóa," ông Lin giải thích.

Việc chuyển sang mã nguồn mở cũng giúp SenseTime tiếp tục hợp tác với các nhà nghiên cứu quốc tế mà không bị cản trở bởi địa chính trị. Công ty này đã bị chính phủ Mỹ trừng phạt nhiều lần trong những năm gần đây liên quan đến cáo buộc rằng công nghệ nhận diện khuôn mặt của họ đã hỗ trợ các hệ thống giám sát được sử dụng để theo dõi và giam giữ người Uyghur và các nhóm thiểu số khác ở khu vực Tân Cương của Trung Quốc. Hậu quả là các công ty Mỹ bị hạn chế đầu tư vào SenseTime và bán một số công nghệ nhất định cho công ty này mà không có giấy phép. (SenseTime đã phủ nhận các cáo buộc này).

Hiệu suất và Ứng dụng

Trong một báo cáo kỹ thuật đi kèm, SenseTime khẳng định SenseNova-U1 tạo ra hình ảnh chất lượng cao hơn tất cả các mô hình mã nguồn mở hiện có trên thị trường. Hiệu suất của nó tương đương với các mô hình mã nguồn đóng hàng đầu của Trung Quốc như Qwen của Alibaba và Seedream của ByteDance, nhưng vẫn tụt hậu so với các nhà lãnh đạo ngành như GPT-Image-2.0 vừa ra mắt tuần trước.

Tuy nhiên, điểm bán hàng chính của mô hình này là khả năng tạo hình ảnh nhanh hơn nhiều so với tất cả các mô hình đó. Nó dựa vào một cấu trúc kỹ thuật sáng tạo gọi là NEO-Unify mà SenseTime đã giới thiệu trước đó trong năm nay.

Ông Lin cho biết kỹ thuật mà SenseTime phát triển sẽ đặc biệt hữu ích trong lĩnh vực robot học. Khi một robot cố gắng xử lý thế giới thị giác, nó cần sàng lọc một lượng thông tin khổng lồ.

"Nó phải suy nghĩ, 'làm thế nào để tôi xử lý tất cả sự lộn xộn trong căn phòng này? Nếu có một chiếc máy phức tạp trước mặt tôi, tôi nên nhấn nút nào?' Tất cả những điều này đều là dạng thông tin và chúng cần được tích hợp vào phán xét nội bộ của mô hình," ông nói.

Vì có thể hiểu hình ảnh một cách tự nhiên, ông Lin hy vọng công nghệ của SenseTime sẽ giúp robot hành động nhanh hơn và mắc ít sai lầm hơn trong các môi trường phức tạp. Trung Quốc đang trong bối cảnh bùng nổ về robot hình người. Mặc dù SenseTime hiện không phát triển robot của riêng mình, ông Lin cho biết công ty đang làm việc chặt chẽ với ACE Robotics, một startup do một đồng sáng lập khác của SenseTime dẫn dắt.