>>444
結局、論文読んだ。
今回のdeepseek-r1-zeroは要は教師付きファインチューニング無しに元の言語モデルを強化学習をしたものかな。
そうすると、回答データを他所から取ってくるというより、元の言語モデルは何かしら必要ってだけだね。
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf