O estado interno do llm parametriza a porra de um trilhão ou mais de atualizações de gradiente dimensionais. Isso é uma grande quantidade de graus de liberdade para influência. Vs os irmãos Engenheiros definindo uma única "função de recompensa"...
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
17 gostos
Recompensa
17
5
Republicar
Partilhar
Comentar
0/400
GweiTooHigh
· 4h atrás
Definir recompensa de forma artificial é uma piada.
Ver originalResponder0
GasWhisperer
· 08-23 01:25
a otimização por gradiente supera os irmãos a qualquer dia fr
Ver originalResponder0
NFTRegretter
· 08-23 01:22
a recompensa explodiu, pertence a
Ver originalResponder0
NullWhisperer
· 08-23 01:12
tecnicamente o espaço de gradiente é mais complexo do que eles pensam smh
O estado interno do llm parametriza a porra de um trilhão ou mais de atualizações de gradiente dimensionais. Isso é uma grande quantidade de graus de liberdade para influência. Vs os irmãos Engenheiros definindo uma única "função de recompensa"...