Mô hình Symphony của Corti đánh bại OpenAI về độ chính xác thuật ngữ y tế, khẳng định giá trị của AI chuyên sâu

Corti vừa ra mắt Symphony for Speech-to-Text, một mô hình nhận dạng giọng nói cấp độ lâm sàng với độ chính xác vượt trội so với OpenAI và Whisper. Mô hình này giải quyết vấn đề xử lý thuật ngữ y tế phức tạp, minh chứng cho sức mạnh của các giải pháp AI chuyên sâu trong ngành y tế.

Hôm nay, công ty trí tuệ nhân tạo y tế Corti có trụ sở tại Copenhagen (Đan Mạch) đã chính thức ra mắt Symphony for Speech-to-Text. Đây là thế hệ mới của các mô hình nhận dạng giọng nói cấp độ lâm sàng, được thiết kế chuyên biệt cho việc chép lời thời gian thực, chuyển đổi cuộc hội thoại và xử lý âm thanh hàng loạt. Điểm nổi bật nhất là mô hình này sở hữu độ chính xác cao nhất từng được ghi nhận cho trường hợp sử dụng cụ thể này.

"Chúng tôi tập trung vào việc đảm bảo các trợ lý AI của mình có thể được tin tưởng bởi các bác sĩ, nhân viên y tế và bệnh nhân... nói cách khác là toàn bộ hệ thống y tế," Andreas Cleve, đồng sáng lập và CEO của Corti, chia sẻ trong một cuộc phỏng vấn video độc quyền với VentureBeat.

Dữ liệu hiệu suất mà Corti đưa ra đã vẽ nên một bức tranh rõ ràng về trạng thái hiện tại của AI doanh nghiệp: đối với các ngành có tính chuyên môn hóa và kiểm soát chặt chẽ, các mô hình chuyên biệt (domain-specific) có thể vượt trội hơn so với các nhà cung cấp mô hình nền tảng (foundation model).

Độ chính xác vượt trội so với các mô hình phổ thông

Trong một bài báo nghiên cứu mới được công bố, Corti tiết lộ rằng các mô hình giọng nói cấp độ lâm sàng mới của họ đã giảm tỷ lệ lỗi từ (WER - Word Error Rate) lên tới 93% khi so sánh với các mô hình giọng nói phổ thông hàng đầu và các API hiện có về mặt thuật ngữ y tế.

Cụ thể, đối với thuật ngữ y tế tiếng Anh, Symphony for Speech-to-Text đạt mức WER cực kỳ thấp chỉ là 1,4%. Để so sánh:

Mô hình giọng nói của OpenAI ghi nhận mức WER là 17,7%.
ElevenLabs đạt 18,1%.
Whisper của OpenAI ghi nhận 17,4%.
Parakeet đạt 18,9%.

Thông báo của Corti đánh dấu một bước ngoặt quan trọng đối với các nhà xây dựng giải pháp y tế. Mặc dù các API phổ thông như Whisper của OpenAI đủ tốt cho việc chuyển đổi văn bản ở các lĩnh vực rộng lớn, nhưng chúng thường gặp khó khăn với các từ viết tắt y khoa, liều lượng thuốc phức tạp, các thuật ngữ viết tắt và môi trường phòng cấp cứu ồn ào. Symphony for Speech-to-Text giải quyết vấn đề này bằng cách cung cấp cho các nhà phát triển một API chuyên biệt, chất lượng sản xuất, được thiết kế từ đầu cho quy trình làm việc lâm sàng.

Kỷ nguyên của các tác nhân AI đòi hỏi dữ liệu đầu vào hoàn hảo

Sự ra mắt của Symphony for Speech-to-Text làm nổi bật một sự thay đổi cơ bản trong cách ngành y tế sử dụng công nghệ giọng nói. Trong nhiều thập kỷ, nhận dạng giọng nói y tế chủ yếu xoay quanh việc tạo ra một tài liệu văn bản tĩnh để bác sĩ xem xét — một sự thay thế kỹ thuật số cho sổ tay.

Tuy nhiên, khi ngành y tế lao vào những gì các chuyên gia công nghệ gọi là "kỷ nguyên của các tác nhân AI" (agentic era) — nơi các tác nhân AI tự chủ hỗ trợ tích cực trong việc ra quyết định lâm sàng, điều hướng hồ sơ sức khỏe điện tử (EHR) và hỗ trợ thời gian thực — bản chép lời không còn là sản phẩm cuối cùng. Nó trở thành lớp dữ liệu nền tảng.

"Giọng nói luôn là một trong những đầu vào quan trọng nhất của y tế," Cleve cho biết trong một tuyên bố. "Điều đang thay đổi là những gì xảy ra sau khi các từ ngữ được ghi lại. Trong kỷ nguyên của các tác nhân AI, nhận dạng giọng nói đòi hỏi nhiều hơn là chỉ tạo ra một bản chép — chúng ta cần cung cấp cho các hệ thống AI các sự kiện lâm sàng chính xác để suy luận. Nếu một mô hình nghe nhầm tên thuốc, liều lượng hoặc triệu chứng, mọi bước tiếp theo sẽ trở nên kém tin cậy hơn."

Đây là nơi rủi ro gia tăng của tỷ lệ lỗi từ cao phát huy tác dụng. Nếu một mô hình AI phổ thông "ảo giác" một bản chép — ví dụ: biến "cường giáp" (hyperthyroidism) thành "suy giáp" (hypothyroidism), hoặc hiểu sai liều lượng thuốc quan trọng — mọi tác nhân AI dựa vào bản chép đó sẽ hoạt động dựa trên dữ liệu bị sai lệch. Kiến trúc của Corti giảm thiểu rủi ro này bằng cách tạo ra đầu ra có cấu trúc, có thể sử dụng lâm sàng ngay từ API, giúp các ứng dụng AI hạ tầng suy luận dựa trên các sự kiện sạch thay vì văn bản lộn xộn.

Điều này thể hiện rõ nhất qua các điểm chuẩn về khả năng hồi nhớ thực thể (entity recall) của Corti. Symphony for Speech-to-Text đạt tỷ lệ hồi nhớ đáng kinh ngạc là 98,3% trên các thực thể lâm sàng được định dạng — chẳng hạn như liều lượng, phép đo và ngày tháng. Ngược lại, Corti báo cáo rằng mô hình cơ sở phổ thông mạnh nhất chỉ đạt tối đa 44,3% tỷ lệ hồi nhớ cho cùng một thực thể.

Đối với các nhà phát triển xây dựng công cụ tài liệu AI môi trường xung quanh, khoảng cách 54% này là sự khác biệt giữa một công cụ giúp bác sĩ tiết kiệm thời gian và một công cụ trở thành rủi ro pháp lý y tế.

Soán ngôi các nhà lãnh đạo ngành

Mặc dù các điểm chuẩn của Corti so với các nhà xây dựng LLM hiện đại như OpenAI và ElevenLabs rất ấn tượng, nhưng công ty cũng đang nhắm đến các gã khổng lồ chuyển đổi giọng nói y tế lâu đời.

Nhiều năm qua, tiêu chuẩn vàng cho việc chép lời của bác sĩ chuyên dụng là Dragon Medical One. Tuy nhiên, các hệ thống cũ này về mặt lịch sử được tối ưu hóa nghiêm ngặt cho việc chép lời có chủ đích của bác sĩ, chứ không phải là cơ sở hạ tầng cơ bản cho AI môi trường xung quanh, các cuộc hội thoại nhiều phức tạp hoặc công cụ hỗ trợ lâm sàng thời gian thực.

Trong các đánh giá về việc chép lời y tế tiếng Anh trong thế giới thực, Corti đạt mức WER 4,6%, vượt trội so với mức 5,7% của Dragon (một cải thiện tương đối 19%). Hơn nữa, Corti chứng minh tỷ lệ hồi nhớ thuật ngữ y tế cao hơn Dragon (93,5% so với 92,9%).

Bằng cách cung cấp mức độ chính xác này thông qua một điểm cuối API, Corti cho phép các nhà phát triển bên thứ ba, nhà cung cấp EHR và các nền tảng chăm sóc ảo xây dựng các công cụ chép lời và lắng nghe môi trường tùy chỉnh của riêng họ vượt trội hơn so với các hệ thống cũ trong ngành.

"Chúng tôi muốn mọi người xây dựng ứng dụng dựa trên các mô hình của chúng tôi," Cleve nói. "Mục tiêu là phổ biến công nghệ rộng rãi nhất có thể để nó có thể hữu ích nhất cho bệnh nhân và bác sĩ của họ."

Giải quyết bài toán mô hình y tế toàn cầu

Nhu cầu của ngành y tế mở rộng xa beyond các bệnh viện nói tiếng Anh, và các hệ thống y tế toàn cầu về mặt lịch sử chưa được phục vụ tốt bởi các mô hình NLP lâm sàng. Những người áp dụng sớm đang tận dụng các mô hình mới của Corti trong các môi trường ngôn ngữ đòi hỏi khắt khe, chứng minh tính khả thi của công nghệ này ở các thị trường quốc tế phức tạp.

Ví dụ, Thụy Sĩ yêu cầu cung cấp dịch vụ chăm sóc qua nhiều ngôn ngữ — thường là đồng thời trong một cơ sở y tế duy nhất. Nó đóng vai trò là một trong những "địa điểm thử nghiệm" khắt khe nhất thế giới cho các mô hình giọng nói y tế đa ngôn ngữ. Các mô hình Symphony của Corti đã chứng kiến mức tăng hiệu suất khổng lồ trong các bài kiểm tra không phải tiếng Anh, đạt WER 2,4% trong tiếng Đức (so với 13,0% của hệ thống tốt nhất tiếp theo) và 3,9% trong tiếng Pháp (so với 10,6%).

"Trong một cuộc hội thoại lâm sàng, mỗi từ ngữ đều quan trọng — một tên thuốc bị bỏ lỡ, một liều lượng nghe nhầm, hoặc một triệu chứng được chép sai có thể thay đổi ý nghĩa của một cuộc khám," Pierre Corboz, Trưởng bộ phận Giải pháp & Phát triển Kinh doanh tại Voicepoint, nhà cung cấp công nghệ y tế Thụy Sĩ, nhận định.

Chuyên môn hóa và chiều hóa AI mang lại hiệu quả

Thông báo hôm nay về Symphony for Speech-to-Text không phải là một sự kiện ngẫu nhiên; nó là kết quả của một câu chuyện chiến lược mà Corti đã tích cực thúc đẩy trong vài tuần qua. Nền tảng Symphony rộng lớn hơn — cung cấp các ứng dụng lâm sàng và hành chính cho mạng lưới toàn cầu các nhà cung cấp EHR và tổ chức khoa học đời sống — đã chứng minh một cách có hệ thống khả năng phòng thủ của các phòng thí nghiệm AI chiều sâu (vertical AI) trước các gã khổng lồ công nghệ chiều ngang (horizontal).

Đây là điểm chuẩn lớn thứ ba mà Corti công bố chỉ trong sáu tuần, chạm đến các lớp khác nhau của hiệu suất AI y tế. Vào tháng 4, công ty tiết lộ rằng hệ thống Symphony for Medical Coding của họ vượt trội hơn 25% so với các mô hình phổ thông về điểm chuẩn độ chính xác lâm sàng. Và chỉ tuần trước, Corti thông báo rằng mô hình cấp độ lâm sàng chủ đạo của họ đạt điểm cao hơn OpenAI trên HealthBench Professional.

Tổng hợp ba dữ liệu này — mã hóa y tế, suy luận lâm sàng và độ chính xác chuyển đổi giọng nói thành văn bản — minh họa một sự đồng thuận ngày càng tăng trong lĩnh vực công nghệ doanh nghiệp: các mô hình tổng quát đang chạm đến trần trong các ngành được kiểm soát.

Khả năng sẵn có và dòng sản phẩm

Các nhà phát triển rõ ràng đang chú ý đến khoảng cách về hiệu suất này. Theo dữ liệu động được cung cấp cho VentureBeat, Corti đang thấy mức tăng trưởng 30% trong số lượng đăng ký mới cho nền tảng của họ so với quý trước, cho thấy các nhà phát triển và nhà xây dựng giải pháp y tế đang tích cực chuyển hướng sang các mô hình cấp độ lâm sàng chiều sâu thay vì các API phổ thông.

Corti, hiện đã phục vụ hơn 100 triệu bệnh nhân mỗi năm trên các hệ thống y tế lớn bao gồm Dịch vụ Y tế Quốc gia (NHS) của Anh, đang định vị Symphony for Speech-to-Text làm động cơ mặc định cho thế hệ phần mềm y tế tiếp theo.

Symphony for Speech-to-Text có sẵn để sử dụng chung bắt đầu từ hôm nay. Các nhà phát triển và kiến trúc sư doanh nghiệp có thể truy cập các mô hình thông qua bảng điều khiển API của Corti, với tài liệu kỹ thuật đầy đủ để giúp tích hợp lớp giọng nói cấp độ lâm sàng vào các ứng dụng hiện có của họ.

Mô hình Symphony của Corti đánh bại OpenAI về độ chính xác thuật ngữ y tế, khẳng định giá trị của AI chuyên sâu

Độ chính xác vượt trội so với các mô hình phổ thông

Kỷ nguyên của các tác nhân AI đòi hỏi dữ liệu đầu vào hoàn hảo

Soán ngôi các nhà lãnh đạo ngành

Giải quyết bài toán mô hình y tế toàn cầu

Chuyên môn hóa và chiều hóa AI mang lại hiệu quả

Khả năng sẵn có và dòng sản phẩm

Bài viết liên quan