**สรุปเอกสาร DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning** ### **บทคัดย่อ** DeepSeek-AI ได้พัฒนาโมเดลการให้เหตุผลรุ่นแรก **DeepSeek-R1-Zero** และ **DeepSeek-R1** โดยใช้ **การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning - RL)** เพื่อเพิ่มขีดความสามารถในการให้เหตุผลของโมเดลภาษาขนาดใหญ่ (LLMs) - **DeepSeek-R1-Zero**: เป็นโมเดลที่ถูกฝึกด้วย RL โดยไม่ใช้ข้อมูล Supervised Fine-Tuning (SFT) ก่อนหน้า แสดงความสามารถในการให้เหตุผลสูง แต่ยังมีข้อจำกัดด้านการอ่านเข้าใจและปัญหาการผสมภาษา - **DeepSeek-R1**: พัฒนาต่อยอดจาก DeepSeek-R1-Zero โดยเพิ่ม **ข้อมูล Cold-Start** และการฝึกหลายขั้นตอน ทำให้ประสิทธิภาพดีขึ้นจนเทียบเท่า **OpenAI-o1-1217** ทีมวิจัยยังเปิดตัวโมเดลขนาดเล็ก (1.5B, 7B, 8B, 14B, 32B, 70B) ที่ถูกปรับแต่งจาก DeepSeek-R1 เพื่อสนับสนุนการวิจัยในวงกว้าง --- ### **ผลการประเมิน** DeepSeek-R1 ทำคะแนนได้ดีในหลายด้าน: - **การให้เหตุผล (Reasoning)**: - AIME 2024 (Pass@1): **79.8%** (สูงกว่า OpenAI-o1-1217 เล็กน้อย) - MATH-500: **97.3%** (เทียบเท่า OpenAI-o1-1217) - Codeforces: คะแนน Elo **2029** (สูงกว่า **96.3%** ของผู้เข้าแข่งขันมนุษย์) - **ความรู้ทั่วไป (Knowledge)**: - MMLU: **90.8%**, GPQA Diamond: **71.5%** (สูงกว่า DeepSeek-V3) - **งานอื่นๆ**: - การเขียนเชิงสร้างสรรค์, การตอบคำถามทั่วไป, การสรุปความ --- ### **แนวทางการพัฒนา** 1. **DeepSeek-R1-Zero**: - ใช้ **RL โดยตรง** บนโมเดลฐาน (DeepSeek-V3-Base) โดยไม่พึ่งข้อมูล SFT - พัฒนาความสามารถในการตรวจสอบตัวเอง (Self-Verification), การสะท้อนคิด (Reflection), และการสร้าง Chain-of-Thought (CoT) ที่ซับซ้อน - ข้อเสีย: อ่านเข้าใจยาก, ผสมภาษา 2. **DeepSeek-R1**: - เพิ่ม **Cold-Start Data** (ตัวอย่างการให้เหตุผลที่มนุษย์เขียน) - ใช้ **Multi-Stage Training** (RL → SFT → RL อีกครั้ง) - ปรับปรุงความอ่านง่ายและประสิทธิภาพ 3. **การปรับโมเดลขนาดเล็ก (Distillation)**: - ใช้ข้อมูลจาก DeepSeek-R1 มาฝึกโมเดลขนาดเล็ก (เช่น Qwen, Llama) - โมเดลขนาด 7B ทำคะแนน **55.5%** ใน AIME 2024 (สูงกว่า QwQ-32B-Preview) --- ### **ข้อสรุปและทิศทางในอนาคต** - DeepSeek-R1-Zero และ DeepSeek-R1 แสดงให้เห็นว่า **RL สามารถพัฒนาความสามารถในการให้เหตุผลได้โดยไม่ต้องพึ่งข้อมูล SFT** - การปรับโมเดลขนาดเล็กด้วย **Distillation** ให้ผลลัพธ์ที่ดีกว่า RL โดยตรง - **ข้อจำกัด**: - ยังมีปัญหาเรื่องการผสมภาษา - ประสิทธิภาพในงานวิศวกรรมซอฟต์แวร์ยังไม่ดีเท่า OpenAI-o1 - **แผนในอนาคต**: - ปรับปรุงความสามารถทั่วไป (เช่น Function Calling, Multi-Turn Chat) - แก้ไขปัญหา Language Mixing - เพิ่มประสิทธิภาพในงานวิศวกรรมซอฟต์แวร์ --- **หมายเหตุ**: เอกสารนี้เน้นการพัฒนาโมเดลด้วย Reinforcement Learning และการประยุกต์ใช้เพื่อเพิ่มขีดความสามารถในการให้เหตุผลของ LLMs