Thử nghiệm AI: Yêu cầu đếm carbohydrate 27.000 lần, kết quả thiếu nhất quán gây sốc

Một thí nghiệm độc lập đã yêu cầu các mô hình trí tuệ nhân tạo đếm lượng carbohydrate trong một bữa ăn tới 27.000 lần. Kết quả cho thấy AI không thể đưa ra một câu trả lời giống hệt nhau hai lần, làm dấy lên lo ngại lớn về độ tin cậy của công nghệ này trong các ứng dụng y tế quan trọng như quản lý tiểu đường.

Việc quản lý tiểu đường đòi hỏi sự chính xác tuyệt đối trong việc tính toán lượng carbohydrate (carbs) nạp vào cơ thể để điều chỉnh liều insulin. Tuy nhiên, một thí nghiệm gần đây đã đặt ra dấu hỏi lớn về khả năng ứng dụng Trí tuệ nhân tạo (AI) trong lĩnh vực y tế cụ thể này.

Một blogger chuyên về công nghệ và tiểu đường từ Diabettech đã thực hiện một thử nghiệm quy mô lớn: ông yêu cầu AI đếm lượng carbohydrate trong cùng một bữa ăn tới 27.000 lần. Kết quả thu được không chỉ gây thất vọng mà còn cho thấy sự thiếu ổn định về mặt logic của các mô hình ngôn ngữ lớn (LLM) hiện nay.

Thí nghiệm "điên rồ" về độ chính xác của AI

Trong thí nghiệm này, cùng một câu hỏi về thành phần dinh dưỡng của một bữa ăn cụ thể được đưa ra cho AI liên tục. Thay vì đưa ra một con số cố định dựa trên dữ liệu dinh dưỡng có sẵn, AI đã trả lời với hàng nghìn biến số khác nhau.

Điều đáng nói là sự khác biệt này không chỉ nằm ở những con số nhỏ. Trong nhiều trường hợp, AI đưa ra các mức chênh lệch rất lớn so với thực tế. Nếu một bệnh nhân tiểu đường tin vào những con số này để tiêm insulin, hậu quả có thể dẫn đến hạ đường huyết nghiêm trọng hoặc tăng đường huyết đe dọa tính mạng.

Tại sao AI lại mắc lỗi như vậy?

Vấn đề cốt lõi nằm ở cách thức hoạt động của các mô hình ngôn ngữ lớn (LLM) như GPT-4 hay các phiên bản khác.

Tính xác suất (Probabilistic): AI không thực sự "tính toán" hay "tra cứu" dữ liệu theo cách máy tính truyền thống làm. Nó dự đoán từ tiếp theo dựa trên xác suất thống kê.
Ảo giác (Hallucination): Khi không có đủ dữ liệu cụ thể hoặc khi bị nhầm lẫn, AI có xu hướng "tự bịa" ra thông tin để hoàn thành câu trả lời một cách mượt mà.
Thiếu tính xác định (Deterministic): Các bài toán toán học hoặc đếm số liệu đòi hỏi kết quả đúng sai rõ ràng (1+1=2), nhưng AI hoạt động dựa trên sự sáng tạo của ngôn ngữ, dẫn đến việc mỗi lần trả lời là một lần "sáng tạo" mới.

Hệ quả đối với Healthtech

Thí nghiệm này là một lời cảnh tỉnh mạnh mẽ cho làng công nghệ y tế (Healthtech). Mặc dù AI mang lại tiềm năng to lớn trong chẩn đoán hình ảnh hay phân tích gen, nhưng việc áp dụng nó vào các nhiệm vụ đòi hỏi độ chính xác tuyệt đối như tính toán liều lượng thuốc vẫn còn quá rủi ro.

Các chuyên gia khuyến cáo rằng người dùng không nên hoàn toàn dựa vào AI cho các quyết định y tế quan trọng. Công nghệ này hiện tại chỉ nên đóng vai trò là trợ lý hỗ trợ, và mọi kết quả từ AI đều cần được kiểm chứng chéo bởi con người hoặc các công cụ tính toán truyền thống đáng tin cậy.

Kết luận

Việc AI thất bại trong bài test đếm carbohydrate đơn giản nhưng lặp đi lặp lại 27.000 lần cho thấy giới hạn của công nghệ hiện tại. Nó nhắc nhở chúng ta rằng "thông minh" trong ngôn ngữ không đồng nghĩa với "chính xác" trong toán học hay thực tế. Đến khi nào các vấn đề về tính xác định và ảo giác được giải quyết triệt để, việc tin tưởng AI vào đời sống, đặc biệt là sức khỏe, vẫn cần sự thận trọng tối đa.

Thử nghiệm AI: Yêu cầu đếm carbohydrate 27.000 lần, kết quả thiếu nhất quán gây sốc

Thí nghiệm "điên rồ" về độ chính xác của AI

Tại sao AI lại mắc lỗi như vậy?

Hệ quả đối với Healthtech

Kết luận

Bài viết liên quan