就这??? 马斯克你认真的吗?

来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 

结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦,这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 

从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 

建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果.

更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵.

#Grok4
공유
탐색

TwitterXDownload

v1.3.29

가장 빠르고 신뢰할 수 있는 트위터 비디오 다운로더. 무료로 사용 가능하며 등록이 필요 없습니다.

© 2024 TwitterXDownload 모든 권리 보유