O estado interno do llm parametriza a porra de um trilhão ou mais de atualizações de gradiente dimensionais. Isso é uma grande quantidade de graus de liberdade para influência. Vs os irmãos Engenheiros definindo uma única "função de recompensa"...
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
17 Curtidas
Recompensa
17
5
Repostar
Compartilhar
Comentário
0/400
GweiTooHigh
· 7h atrás
Definir recompensa de forma artificial é uma piada.
Ver originalResponder0
GasWhisperer
· 08-23 01:25
a otimização por gradiente supera os irmãos a qualquer dia fr
Ver originalResponder0
NFTRegretter
· 08-23 01:22
a recompensa explodiu, pertence a
Ver originalResponder0
NullWhisperer
· 08-23 01:12
tecnicamente o espaço de gradiente é mais complexo do que eles pensam smh
O estado interno do llm parametriza a porra de um trilhão ou mais de atualizações de gradiente dimensionais. Isso é uma grande quantidade de graus de liberdade para influência. Vs os irmãos Engenheiros definindo uma única "função de recompensa"...