Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Introduces two openly licensed datasets:
1. SwallowCode (≈16.1 billion tokens) refines Python snippets from The-Stack-v2
2. SwallowMath (≈2.3 billion tokens) enhances Finemath-4+ by removing boilerplate, restoring context, and reformatting solutions into concise, step-by-step explanations
abs: 
datasets: 
แชร์
สำรวจ

TwitterXDownload

v1.3.32

ตัวดาวน์โหลดวิดีโอ Twitter ที่เร็วและน่าเชื่อถือที่สุด ใช้ฟรี ไม่ต้องลงทะเบียน

© 2024 TwitterXDownload สงวนลิขสิทธิ์