๐†๐๐“-๐Ÿ’.๐Ÿ ๐š๐ฅ๐ฆ๐จ๐ฌ๐ญ ๐ญ๐จ๐ฉ๐ฌ ๐‚๐ฅ๐š๐ฎ๐๐ž ๐Ÿ‘.๐Ÿ• ๐จ๐ง ๐œ๐จ๐๐ข๐ง๐ ?!

New eval dropping using our #1 SWE-bench coding agent!

- GPT-4.1 beats Gemini 2.5 Pro and almost tops Claude 
   3.7 Sonnet!
- Even GPT-4.1 mini matches Claude 3.5 Sonnet V2 
   performance. It was the top model just 2mo ago!
The evaluation is done through our proprietary codebase understanding benchmark AugmentQA. You can learn more at: 

Try our agent yourself at: 
เนเธŠเธฃเนŒ
เธชเธณเธฃเธงเธˆ

TwitterXDownload

v1.3.29

เธ•เธฑเธงเธ”เธฒเธงเธ™เนŒเน‚เธซเธฅเธ”เธงเธดเธ”เธตเน‚เธญ Twitter เธ—เธตเนˆเน€เธฃเน‡เธงเนเธฅเธฐเธ™เนˆเธฒเน€เธŠเธทเนˆเธญเธ–เธทเธญเธ—เธตเนˆเธชเธธเธ” เนƒเธŠเน‰เธŸเธฃเธต เน„เธกเนˆเธ•เน‰เธญเธ‡เธฅเธ‡เธ—เธฐเน€เธšเธตเธขเธ™

ยฉ 2024 TwitterXDownload เธชเธ‡เธงเธ™เธฅเธดเธ‚เธชเธดเธ—เธ˜เธดเนŒ