Cha đẻ của Apache Spark nhận giải thưởng tính toán danh giá vì cách mạng hóa xử lý Big Data
Hiệp hội Máy tính (ACM) vừa trao giải thưởng Tính toán hàng năm trị giá 250.000 USD cho Matei Zaharia, đồng sáng lập Databricks. Ông được vinh danh nhờ những đóng góp nổi bật trong việc phát triển phần mềm phân tích dữ liệu mã nguồn mở, đặc biệt là động cơ phân tích Apache Spark phổ biến toàn cầu.

Cha đẻ của Apache Spark nhận giải thưởng tính toán danh giá vì cách mạng hóa xử lý Big Data
Hiệp hội Máy tính (ACM) vừa công bố trao giải thưởng Tính toán (Prize in Computing) năm nay cho Matei Zaharia, đồng sáng lập của Databricks. Ông được vinh danh vì những đóng góp to lớn trong việc phát triển các phần mềm dữ liệu và phân tích mã nguồn mở, bao gồm động cơ phân tích Apache Spark được sử dụng rộng rãi trên toàn cầu.
Giải thưởng này được thiết kế để ghi nhận những nhà khoa học máy tính ở giai đoạn đầu hoặc giữa sự nghiệp có công trình mang lại tác động sâu sắc và lâu dài. Giải thưởng đi kèm khoản tiền mặt 250.000 USD, với sự hỗ trợ tài chính từ quỹ hiến tặng của tập đoàn tư vấn và dịch vụ công nghệ Infosys.
Từ dự án nghiên cứu đến đế chế dữ liệu
Mặc dù khoản tiền thưởng này là một niềm vinh dự lớn, nhưng Matei Zaharia hiện không quá phụ thuộc vào nó về mặt tài chính. Sau khi phát triển Apache Spark như một phần của nghiên cứu tiến sĩ tại UC Berkeley, Zaharia đã đồng sáng lập nên Databricks. Công ty này cung cấp nền tảng phân tích và học máy dựa trên Spark và các công nghệ khác, hiện có định giá ước tính lên tới 130 tỷ USD.
Ngoài Apache Spark, Zaharia còn đóng góp vào việc phát triển nhiều dự án mã nguồn mở khác. Trong đó có Delta Lake, một khung lưu trữ mã nguồn mở được quản lý bởi Linux Foundation, và MLflow, nền tảng mã nguồn mở dành cho vòng đời học máy.
Apache Spark: Thay đổi cuộc chơi của Big Data
Tuy nhiên, Zaharia được biết đến nhiều nhất với Apache Spark. Đây là dự án được cộng đồng học máy và phân tích dữ liệu đón nhận nồng nhiệt. Hiện nay, Spark có sẵn trên các nhà cung cấp đám mây hàng đầu và các nền tảng dữ liệu lớn như Snowflake và Cloudera.
Trong một cuộc phỏng vấn, Zaharia đã chia sẻ về cách ông phát triển phương pháp tính toán phân tán mới này để sử dụng bộ nhớ một cách đáng tin cậy hơn và tăng tốc độ tính toán. Công nghệ này đã mở ra cánh cửa của "dữ liệu lớn" (big data) cho một nhóm người dùng hoàn toàn mới.
Khi Zaharia bắt đầu làm việc với Spark vào khoảng năm 2010, việc phân tích "dữ liệu lớn" thường đồng nghĩa với việc sử dụng MapReduce. Đây là mô hình lập trình dựa trên Java chạy trên Hadoop Distributed File System, đòi hỏi nhiều kỹ thuật phần mềm phức tạp.
Zaharia lấy cảm hứng từ các nhà nghiên cứu sử dụng dữ liệu lớn cho học máy và phát hiện ra các loại virus mới. Ông nhận thấy rằng: "Đây là những trường hợp sử dụng thực sự thú vị, nơi họ không thể ngồi xuống để học Java và dành nhiều tuần để xây dựng một ứng dụng. Chúng tôi muốn làm cho việc này trở nên dễ dàng nhất có thể đối với họ."
Một phần của kế hoạch nhằm mở rộng sự hấp dẫn của Spark là giới thiệu các ngôn ngữ lập trình mới. Ngoài Java, người dùng có thể làm việc với Scala, ngôn ngữ thống kê R, C#, và Python. Đặc biệt, Python là ngôn ngữ cấp cao đạt được sự phổ biến rộng rãi trong học máy. Tiêu chuẩn ngôn ngữ cơ sở dữ liệu thực tế, SQL, cũng được thêm vào Spark vào năm 2014.
Tầm nhìn mở và tương lai của AI
Chủ tịch ACM, Yannis Ioannidis, nhận định rằng công việc của Zaharia đã để lại tác động lasting về cách dữ liệu được sử dụng ở quy mô lớn. "Bằng cách giải quyết các hạn chế chính của các hệ thống trước đó, ông đã phát triển các công nghệ nhanh chóng trở thành công cụ tiêu chuẩn cho phân tích dữ liệu, học máy và trí tuệ nhân tạo. Triết lý mã nguồn mở của Matei là rất cần thiết: ông đã biến các công cụ này trở nên dễ tiếp cận với tất cả mọi người."
Ngoài công việc tại Databricks, Zaharia còn là đồng tác giả của các nghiên cứu mã nguồn mở gần đây, bao gồm DSPy và GEPA. Các dự án này tập trung vào việc tối ưu hóa các câu lệnh (prompt) và mô hình để cải thiện chất lượng của tác nhân AI (AI agent) cho các nhiệm vụ cụ thể. Ông từng đảm nhận các vai trò học thuật tại MIT và Stanford, và hiện là phó giáo sư khoa học máy tính tại Đại học California, Berkeley.
Bài viết liên quan

Phần mềm
Anthropic ra mắt Claude Opus 4.7: Nâng cấp mạnh mẽ cho lập trình nhưng vẫn thua Mythos Preview
16 tháng 4, 2026

Công nghệ
Qwen3.6-35B-A3B: Quyền năng Lập trình Agentic, Nay Đã Mở Cửa Cho Tất Cả
16 tháng 4, 2026

Công nghệ
Spotify thắng kiện 322 triệu USD từ nhóm pirate Anna's Archive nhưng đối mặt với bài toán thu hồi
16 tháng 4, 2026
