Mặc dù vượt trội hơn các mô hình tiền nhiệm về khả năng suy luận, GPT-4.5 lại tỏ ra kém cạnh hơn so với các đối thủ như DeepSeek R1 và Claude 3.7 Sonnet khi đối diện với những bài toán phức tạp.
Vào thứ Năm vừa qua, OpenAI đã chính thức công bố phát hành GPT-4.5, hay còn gọi là “Orion”. Đây là mô hình AI lớn nhất mà công ty phát triển cho đến nay, với dữ liệu và sức mạnh tính toán vượt trội so với các phiên bản tiền nhiệm. Tuy nhiên, OpenAI không xem GPT-4.5 là một mô hình tiên phong.
Những người đăng ký gói ChatGPT Pro (200 USD/tháng) sẽ là những người đầu tiên trải nghiệm GPT-4.5 dưới dạng bản xem trước nghiên cứu từ hôm nay. Các nhà phát triển sử dụng các gói API OpenAI trả phí cũng sẽ có quyền truy cập vào mô hình mới này. OpenAI cho biết sẽ mở rộng GPT-4.5 cho người dùng ChatGPT Plus và ChatGPT Team vào tuần tới.

Giới công nghệ đã háo hức chờ đợi Orion, vì nó được xem như một dấu hiệu cho thấy tính khả thi của các phương pháp huấn luyện AI truyền thống. GPT-4.5 được phát triển bằng kỹ thuật tương tự các thế hệ GPT trước đó, với việc tăng mạnh dữ liệu và sức mạnh tính toán trong giai đoạn “tiền huấn luyện”, được gọi là học không giám sát.
Mặc dù quy mô lớn hơn giúp GPT-4.5 có “kiến thức thế giới sâu rộng” và “trí tuệ cảm xúc cao hơn”, nhưng đã bắt đầu có dấu hiệu cho thấy lợi ích từ việc mở rộng dữ liệu và tính toán đang tiến gần đến ngưỡng giới hạn. Trong một số bài kiểm tra chuẩn AI, GPT-4.5 không thể vượt qua các mô hình “lý luận” tiên tiến hơn từ DeepSeek, Anthropic, và chính OpenAI.

GPT-4.5 có độ chính xác cao hơn và giảm được mức độ ảo giác so với các mô hình AI trước đây
GPT-4.5 cũng tốn kém rất nhiều trong việc vận hành, đến mức OpenAI đang xem xét khả năng tiếp tục cung cấp nó trong API của mình trong tương lai. Để truy cập API của GPT-4.5, OpenAI tính phí 75 USD cho mỗi triệu token đầu vào và 150 USD cho mỗi triệu token đầu ra, cao hơn nhiều so với mức phí 2,5 USD và 10 USD của GPT-4o.
Trong bài kiểm tra chuẩn SimpleQA của OpenAI, GPT-4.5 vượt trội hơn GPT-4o và các mô hình lý luận o1, o3-mini về độ chính xác. Nó cũng ít bị ảo giác hơn hầu hết các mô hình khác. Tuy nhiên, GPT-4.5 lại kém cạnh hơn so với các đối thủ như DeepSeek R1 và Claude 3.7 Sonnet trong các bài kiểm tra học thuật phức tạp như AIME và GPQA.

GPT-4.5 cho thấy khả năng sáng tạo khi tạo ra các hình ảnh hợp lý chỉ bằng các đoạn code
OpenAI cho rằng GPT-4.5 vượt trội ở những khía cạnh mà các bài kiểm tra chuẩn không thể đánh giá chính xác, như khả năng hiểu ý định con người, đáp ứng với giọng điệu tự nhiên và ấm áp, cũng như thực hiện tốt các tác vụ sáng tạo như viết lách và thiết kế. Trong một bài kiểm tra không chính thức, GPT-4.5 là mô hình AI duy nhất có thể tạo ra hình ảnh kỳ lân bằng SVG với độ chính xác cao.

GPT-4.5 biểu diễn khả năng thể hiện trí tuệ cảm xúc trước yêu cầu của người dùng
Những hạn chế của GPT-4.5 dường như đã xác nhận dự đoán rằng các quy luật mở rộng tiền huấn luyện sẽ không còn hiệu quả trong tương lai. Ilya Sutskever, đồng sáng lập OpenAI, cũng từng chia sẻ rằng “chúng ta đã đạt đỉnh dữ liệu” và “tiền huấn luyện như chúng ta biết sẽ kết thúc”. Điều này đã thúc đẩy ngành công nghiệp, bao gồm OpenAI, chuyển hướng sang các mô hình lý luận.
OpenAI dự định sẽ kết hợp dòng mô hình GPT với dòng mô hình lý luận “o”, bắt đầu từ GPT-5 vào cuối năm nay. Mặc dù GPT-4.5 không thể giành ngôi vương trong các bài kiểm tra chuẩn AI, nhưng OpenAI hy vọng nó sẽ là bước đệm quan trọng, mở đường cho một mô hình mạnh mẽ hơn rất nhiều trong tương lai.