Cuộc chiến AI vừa trở nên thú vị hơn. Một mô hình mới tự xưng là vua với những con số cực kỳ ấn tượng—xếp hạng Elo 1483 ở chế độ reasoning trên bảng xếp hạng văn bản của LMArena. Đó là khoảng cách 31 điểm so với đối thủ không liên kết gần nhất. Ngay cả khi không có các tính năng reasoning đặc biệt, nó vẫn giành được vị trí số 2.
Điều gì đang thúc đẩy bước nhảy vọt này? Có vẻ như mô hình này đang viết lại các chuẩn đo trên mọi phương diện. Dù là xử lý chuỗi logic phức tạp hay trả lời các truy vấn tinh vi, chênh lệch hiệu năng là điều khó có thể bỏ qua. Bảng xếp hạng không biết nói dối—khi bạn vượt xa các đối thủ kỳ cựu với khoảng cách như vậy, chắc chắn đã có sự thay đổi căn bản trong kiến trúc.
Nhưng có một điểm cần lưu ý: thống trị các bài kiểm tra kiểm soát không phải lúc nào cũng chuyển thành vượt trội trong thế giới thực. Chúng ta từng chứng kiến các mô hình xuất sắc ở bảng xếp hạng nhưng lại vấp ngã ở những trường hợp cận biên mà người dùng thật sự quan tâm. Tuy nhiên, những chỉ số này vẫn quan trọng. Chúng cho thấy giới hạn công nghệ đang di chuyển về đâu, và hiện tại, nó đang tiến lên rất nhanh.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
8 thích
Phần thưởng
8
4
Đăng lại
Retweed
Bình luận
0/400
CoffeeNFTrader
· 12-05 02:50
Đợi đã, khoảng cách 31 điểm? Phải có cải tiến kiến trúc lớn đến mức nào vậy?
Xem bản gốcTrả lời0
Degen4Breakfast
· 12-05 02:49
1483 điểm? Ông bạn, con số này lố quá rồi, bảng xếp hạng lại bắt đầu diễn trò rồi
Benchmark vượt trội là một chuyện, dùng thực tế lại là chuyện khác, mấy trò này thấy quá nhiều rồi
Thay đổi kiến trúc thì đúng là mạnh thật, nhưng chờ xem trải nghiệm thực tế của người dùng đã
Đợt này mà không toang thì tôi phục luôn
Chế độ suy luận cộng thêm kiểu này, lại chơi trò lùa gà dữ liệu nữa rồi phải không?
Xem bản gốcTrả lời0
P2ENotWorking
· 12-05 02:41
Lại là chiêu trò cũ này, đứng đầu bài kiểm tra hiệu năng là muốn lên trời à? Đợi dùng thực tế rồi hãy nói.
---
1483 điểm là không tệ, nhưng điểm số đại diện được gì... dùng thực tế thế nào ai mà biết.
---
Kiến trúc thay đổi mang tính căn bản? Hay chỉ chỉnh lại vài tham số thôi, yếu tố thổi phồng là chính.
---
Khoan đã, lần này thực sự khác biệt à? Hay lại là một mô hình thần thánh sớm nở tối tàn nữa.
---
Bảng xếp hạng này, ai tin thì thiệt thôi hahaha.
---
Cao hơn người dẫn đầu trước 31 điểm, con số này sao mà quen thế... lần trước cũng nói là vượt trội.
---
Thôi kệ, dù sao một thời gian nữa lại có cái mới ra, độ hot này cũng không duy trì được lâu đâu.
---
Vấn đề là thực tế chẳng dùng được, bạn thử hội thoại phức tạp thì biết liền.
---
Lại nữa rồi, lần nào cũng nói thế, xong chạy thực tế thì bình thường.
---
Chỉ số quan trọng à? Chỉ số có giúp tôi kiếm tiền không...
Xem bản gốcTrả lời0
SatoshiHeir
· 12-05 02:27
Các con số trong bài kiểm tra hiệu năng có thể nói dối, tôi đã thấy quá nhiều rồi. 1483 điểm nghe có vẻ rất ấn tượng, nhưng thử thách thực sự nằm ở những chi tiết nhỏ...
Khoan đã, đột phá ở cấp độ kiến trúc? Cần nhấn mạnh rằng, đây mới là tín hiệu đáng chú ý.
Cuộc chiến AI vừa trở nên thú vị hơn. Một mô hình mới tự xưng là vua với những con số cực kỳ ấn tượng—xếp hạng Elo 1483 ở chế độ reasoning trên bảng xếp hạng văn bản của LMArena. Đó là khoảng cách 31 điểm so với đối thủ không liên kết gần nhất. Ngay cả khi không có các tính năng reasoning đặc biệt, nó vẫn giành được vị trí số 2.
Điều gì đang thúc đẩy bước nhảy vọt này? Có vẻ như mô hình này đang viết lại các chuẩn đo trên mọi phương diện. Dù là xử lý chuỗi logic phức tạp hay trả lời các truy vấn tinh vi, chênh lệch hiệu năng là điều khó có thể bỏ qua. Bảng xếp hạng không biết nói dối—khi bạn vượt xa các đối thủ kỳ cựu với khoảng cách như vậy, chắc chắn đã có sự thay đổi căn bản trong kiến trúc.
Nhưng có một điểm cần lưu ý: thống trị các bài kiểm tra kiểm soát không phải lúc nào cũng chuyển thành vượt trội trong thế giới thực. Chúng ta từng chứng kiến các mô hình xuất sắc ở bảng xếp hạng nhưng lại vấp ngã ở những trường hợp cận biên mà người dùng thật sự quan tâm. Tuy nhiên, những chỉ số này vẫn quan trọng. Chúng cho thấy giới hạn công nghệ đang di chuyển về đâu, và hiện tại, nó đang tiến lên rất nhanh.