Rewriting Pre-Training Data Boosts LLM Performance in Math and Code

Introduces two openly licensed datasets:
1. SwallowCode (≈16.1 billion tokens) refines Python snippets from The-Stack-v2
2. SwallowMath (≈2.3 billion tokens) enhances Finemath-4+ by removing boilerplate, restoring context, and reformatting solutions into concise, step-by-step explanations
abs: 
datasets: 
공유
탐색

TwitterXDownload

v1.3.32

가장 빠르고 신뢰할 수 있는 트위터 비디오 다운로더. 무료로 사용 가능하며 등록이 필요 없습니다.

© 2024 TwitterXDownload 모든 권리 보유