Avaliação de IA sob a perspectiva da quantificação: expectativa de lucro de todos menor que 1, quão longe está a inteligência artificial de substituir os traders?

PANews

2025-11-24 06:43:22

Autor: Frank, PANews

Se você tivesse 10000 dólares, em qual inteligência artificial você escolheria confiar para operar para você?

Anteriormente, a PANews fez uma análise do concurso de negociação de IA da nof1.ai (leia também: Seis “traders” de IA, duelo de dez dias: uma aula pública sobre tendências, disciplina e ganância). No entanto, durante a competição da nof1.ai, a validade da competição é voltada para um determinado período de mercado, e a capacidade final de negociação dos grandes modelos de IA parece não ser totalmente demonstrada em um ciclo de negociação específico. Além disso, é urgente encontrar uma resposta sobre a verdadeira capacidade preditiva dos modelos de IA sob diferentes condições. Com o recente lançamento de novos grandes modelos por várias empresas de IA, o ranking de capacidade dos modelos também está passando por uma reavaliação.

Para desvendar este mistério, a PANews organizou um “Concurso de Traders de IA”. Entenda a capacidade de julgamento do modelo de IA em diferentes cenários e a sua habilidade de planeamento de negociações. Por exemplo, quais são os quadros temporais em que é mais competente na análise de mercado, e se a taxa de sucesso das previsões da IA aumenta quando existem indicadores como condições auxiliares.

Estendemos a linha do tempo de 2017 até hoje e, a partir dos dados históricos da Binance BTC, selecionamos aleatoriamente 100 fatias de mercado reais, criando três cenários de teste de nível infernal: “K de 4 horas nu”, “Curto prazo de 15 minutos” e “Todos os indicadores de 4 horas”. Os seis concorrentes representam o auge do poder computacional atual entre os EUA e a China: Gemini-3-pro, Doubao-1.6-vision, DeepSeek V3.2, Grok 4.1, GPT-5.1, Qwen3-max.

Este teste coletou dados de K-line de 15 minutos do par de negociação à vista BTC da Binance desde agosto de 2017 até o presente, bem como dados de K-line de 4 horas de 2021 até o presente. Para cada período, foram geradas aleatoriamente 50 imagens com um intervalo de 100 K-lines, sendo que o período de 4 horas é dividido em duas categorias: uma com apenas K-lines e volume de negociação, e outra com gráfico de K-line que inclui informações de indicadores como EMA, SMA, Bandas de Bollinger, MACD, RSI, entre outros. Os gráficos de K-line de 15 minutos são todos gráficos de K-line nus (com volume de negociação). Além disso, os dados de preço ou indicadores correspondentes ao gráfico de K-line atual também são sincronizados com a IA. Todos os resultados de saída da IA podem ser visualizados aqui.

Gráfico indicativo de 4 horas

Diagrama de K-line puro de 4 horas

Durante o processo de teste, as informações de dados e comandos obtidas por cada grande modelo são exatamente as mesmas. Por outro lado, isso também testa bastante a capacidade multimodal desses grandes modelos (a DeepSeek, por ter apenas um modelo de texto, recebe apenas informações de dados e não transmite imagens).

Gemini 3: O Rei dos Naked K selado por “indicadores”

Gemini 3 é o modelo de IA mais quente no momento, e, a partir dos comentários da mídia e dos testes após seu lançamento em 18 de novembro, pode-se dizer que é o modelo de IA multimodal com as capacidades mais abrangentes atualmente. No entanto, nos testes de previsão de negociação realizados desta vez, os resultados do Gemini 3 não são os melhores, podendo ser considerados medianos. Em três cenários (K nu de 4 horas, K nu de 4 horas com indicadores, K nu de 15 minutos), o Gemini 3 teve o melhor desempenho no cenário K nu de 4 horas, com uma taxa de vitória de 39,58%, seguido pelo cenário K nu de 15 minutos com 34,04%. No caso de indicadores (no mesmo período de tempo), a precisão do período de 4 horas caiu para 31%, sendo a pior entre os três cenários.

Sob este ponto de vista, o Gemini 3 parece ser mais proficiente em padrões de velas puras, e a sobreposição de indicadores tende a causar interferência. No processo de operação específico, sem indicadores, o Gemini 3 parece ser mais ousado ao abrir posições; em condições de velas puras, 95% dos movimentos de mercado optam por entrar, enquanto essa proporção cai para 71% após a adição de indicadores. Vale a pena mencionar que o Gemini 3 é o único modelo lucrativo em condições de velas puras de 4 horas.

No cenário de 15 minutos, a situação geral de lucro do Gemini 3 é a melhor, com um lucro total de 15,34%, enquanto no cenário com indicadores houve uma perda de 21,18%. No entanto, esse lucro é também uma sorte de curto prazo; ao combinar os dados de razão de lucro e perda de cada vez, a expectativa de lucro do Gemini 3 (taxa de vitória*razão de lucro e perda) é inferior a 1, o que significa que a longo prazo é um estado de perda.

DeepSeek V3.2: A “máquina de negociação de alta frequência” tão estável quanto um cão velho

DeepSeek é o modelo com o melhor desempenho de taxa de vitória entre os seis modelos, sendo também o mais estável. Em três cenários (K candlestick nu de 4 horas, K candlestick de 4 horas com indicadores, K candlestick nu de 15 minutos), as taxas de vitória são de 40%, 41,38% e 42,86%, respetivamente. A partir disso, podemos ver que a capacidade de previsão do DeepSeek é relativamente estável em diferentes períodos e na presença ou ausência de indicadores.

No entanto, a situação de lucro final da DeepSeek não é boa, devido ao seu índice de lucro e perda muito baixo, com uma média de apenas 1,25. Este índice de lucro e perda que visa garantir ganhos também reflete a falta de capacidade da DeepSeek para deixar os lucros correrem durante o processo de negociação. Assim, isso resulta numa expectativa de lucro quase em torno de 0,5, o que, a longo prazo, também carece de potencial de lucro. Além disso, a DeepSeek é relativamente conservadora em termos de decisão de abertura de posições, com uma taxa de abertura total de apenas 58%.

Doubao (豆包): O “MVP” da competição desta vez.

No teste, o resultado geral do Doubao1.6-vision foi o melhor. No cenário com indicadores de 4 horas, a taxa de vitória do Doubao1.6-vision atingiu os dados mais altos do teste, alcançando 50%, e o retorno final foi de 22,2%. Ao mesmo tempo, no ciclo curto de 15 minutos, também obteve um nível de retorno de 8,2%. É o único modelo que consegue ter lucro de forma estável em duas dimensões diferentes (curto prazo e indicadores de 4 horas).

Além disso, o resultado do Doubao1.6-vision não foi alcançado sob um estilo relativamente conservador, mas sim com uma proporção média de abertura de posição superior a 92%. Em outras palavras, o Doubao1.6-vision optou por abrir posições na grande maioria das situações. No entanto, em comparação, a capacidade do Doubao1.6-vision também depende muito dos sinais dos indicadores; na ausência de indicadores, o lucro total difere em 38%. Além disso, de acordo com os dados da relação de lucro e perda, o Doubao1.6-vision apresenta uma alta proporção de perdas em relação a ganhos nos dois períodos de rendimento positivo, o que também é uma razão para seu desempenho geral excepcional.

Grok 4.1: “Aposta Radical” da xAI

O estilo geral do Grok 4.1 é audacioso, mas dependente de indicadores trimestrais, ao mesmo tempo que está disposto a perseguir lucros maiores. Em três cenários, apenas no cenário de 4 horas com indicadores, o Grok 4.1 obteve uma taxa de vitória de 34,69%, enquanto nas outras duas situações a taxa de vitória é extremamente baixa. No caso de apenas velas de 4 horas, a taxa de vitória é de apenas 14,58%, enquanto no ciclo de 15 minutos é de 26,53%. No entanto, a média de aberturas de posição é impressionante, alcançando 98%, mostrando disposição para abrir posições em quase todos os cenários de velas. Sob essa perspectiva, o estilo do Grok 4.1 se assemelha mais ao de um jogador que não consegue controlar suas apostas.

No entanto, a relação de lucro e perda do Grok 4.1 é frequentemente bastante alta, com uma média de 2, a mais elevada entre todos os modelos. Mas, de uma forma geral, não é uma escolha sábia entregar seus fundos ao Grok 4.1.

GPT 5.1: O “short seller” pessimista de extrema cautela.

O estilo de abertura de ordens do GPT 5.1 é completamente oposto ao do Grok 4.1. O GPT 5.1 é extremamente cauteloso, escolhendo muitas vezes esperar na maioria dos casos. No final de 150 testes, apenas 52 ordens foram abertas, resultando em uma taxa média de abertura de 0,34%.

No entanto, mesmo com tanto cuidado e cautela, isso não conseguiu proporcionar uma melhor taxa de vitória para o GPT 5.1. Mesmo nas melhores condições, ele obteve apenas 35% de taxa de vitória. Além disso, em comparação com os períodos de 4 horas e 15 minutos, o GPT 5.1 claramente não é muito bom em abrir posições de longo prazo; mesmo com a adição de indicadores técnicos, a taxa de vitória de 4 horas é apenas de 27%. E no período de 15 minutos, com uma relação de lucro/prejuízo relativamente alta (2.02), conseguiu obter um retorno positivo, resultando em um resultado final de 9.9%.

Além disso, o GPT 5.1 tem uma característica de pessimismo evidente, mostrando grande interesse em vender a descoberto. Mais de 70% das ordens são ordens de venda.

Qwen 3: O “avesso ao risco” que valoriza cada palavra

O Qwen 3 é claramente o modelo grande mais cauteloso, tendo aberto posições apenas 44 vezes em todos os testes, com uma taxa de abertura de apenas 29%. No entanto, assim como o GPT, essa extrema cautela não conseguiu trazer uma taxa de sucesso mais alta. Sua taxa de sucesso média é de apenas 34%, sendo o cenário de melhor desempenho aquele com indicadores de 4 horas.

Além disso, a relação risco-recompensa do Qwen 3 também é alta, atingindo 1,96. Parece que ele pertence a jogadores avessos ao risco, que preferem reduzir o número de operações, mas deixar os lucros correrem. E no cenário com indicadores de 4 horas, a expectativa de lucro do Qwen 3 também é a mais próxima do lucro, atingindo 0,95, o que é o mais alto entre todos os modelos.

Situação de agregação de dados

Resumo:

No geral, podemos obter as seguintes lições desses processos de negociação simulada de IA.

Em primeiro lugar, para a grande maioria dos modelos, ter indicadores é mais confiável do que apenas gráficos de velas. Com indicadores, a taxa média de vitória desses seis modelos atingiu 38%, enquanto sem indicadores a taxa de vitória foi de apenas 30%.

Em segundo lugar, a IA pode ser mais habilidosa em negociações de curto prazo, em vez de negociações de longo prazo. Em um cenário de K-line puro de 15 minutos, a taxa média de vitória dos seis grandes modelos atingiu 34%, superior aos 30% do período de 4 horas. Três dos seis modelos foram lucrativos (Gemini, GPT, Doubao), e a relação média de lucro e perda é geralmente melhor.

Terceiro, entregar completamente a posição à IA não é aconselhável. Durante este teste, todas as expectativas de lucro dos modelos de IA foram inferiores a 1, o que também indica que, a longo prazo, com essa taxa de vitória e razão de lucro/prejuízo, seus resultados finais seriam todos de perda. É apenas uma questão de quão rápido se perde (no entanto, aqui, como os modelos de IA não foram ajustados especificamente, os indicadores utilizados são apenas indicadores comuns e relativamente simples). Portanto, se você deseja que a IA substitua você nas negociações, pode precisar de um processo de ajuste mais complexo e de mais dados de backtesting.

Quando este duelo de poder computacional chega ao fim, ao olharmos para o número final do saldo da conta, a lição mais importante que podemos extrair talvez não seja “qual modelo é o mais forte”, mas sim “quais são os limites do comércio de IA”. A conclusão final é que a IA de hoje talvez ainda não possa substituir diretamente um excelente gestor de fundos, mas já evoluiu para um assistente de negociação relativamente maduro em um aspecto, alguns são bons em análise gráfica, outros em gestão de risco, e alguns em análise de dados para alcançar uma taxa de vitória estável. E quanto às crescentes expectativas das pessoas em relação à IA, fazer com que a IA substitua os humanos no comércio ainda é um desafio complexo.

BTC1.6%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.