実況 ◆ テレビ朝日 76773 ワイスクと徹子とDAIGO

**名無しステーション** · 2025/02/03(月) 12:58:31.02

>>444
結局、論文読んだ。
今回のdeepseek-r1-zeroは要は教師付きファインチューニング無しに元の言語モデルを強化学習をしたものかな。
そうすると、回答データを他所から取ってくるというより、元の言語モデルは何かしら必要ってだけだね。
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf