就这??? 马斯克你认真的吗?

来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 

结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦,这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 

从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 

建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果.

更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵.

#Grok4
Content Warning: Adult Content
Click to Show
AD Required
بانٹیں
دریافت کریں

TwitterXDownload

v1.4.74

Download Twitter videos and media content for free. No registration required. Fast and easy Twitter video downloader. Twitter Media Saver. Twitter X Download.

© 2024 TwitterXDownload تمام حقوق محفوظ ہیں۔

Featured on toolfame.comFeatured on aihuntlist.com