Por que o Copilot corta a resposta mesmo com prompts curtos
🔍 WiseChecker

Por que o Copilot corta a resposta mesmo com prompts curtos

Você digita um prompt curto no Copilot, mas a resposta é cortada após alguns parágrafos ou até frases. Esse truncamento ocorre no meio de uma frase ou em uma pausa artificial, forçando você a pedir o restante. A causa não é o tamanho do prompt, mas uma combinação de limites de token, restrições da janela de contexto e configurações de geração de resposta no Copilot para Microsoft 365. Este artigo explica os motivos técnicos por trás do truncamento e fornece etapas para reduzi-lo ou evitá-lo.

Principais conclusões: Como evitar o truncamento de resposta do Copilot

  • Painel do Copilot > Configurações > Controle deslizante de limite de token: Ajusta o número máximo de tokens que o modelo pode gerar por resposta; valores mais altos reduzem o truncamento.
  • Limite da janela de contexto de 8.192 tokens (GPT-4 Turbo): Compartilhado entre seu prompt, instruções do sistema e a resposta gerada; prompts mais curtos deixam mais espaço para a saída.
  • Usar o botão “Continuar” ou digitar “Continue” no chat: Instrui o Copilot a regenerar a parte truncada sem perder o contexto existente.

Por que o Copilot corta a resposta: limites de token e janelas de contexto

O Copilot, como outros modelos de linguagem grandes, processa texto em unidades chamadas tokens. Um token equivale a aproximadamente quatro caracteres em português, então uma palavra como “Microsoft” equivale a dois tokens. Cada interação do Copilot tem um número máximo fixo de tokens que pode processar de uma vez, chamado janela de contexto. Para o Copilot para Microsoft 365 usando GPT-4 Turbo, a janela de contexto é de 8.192 tokens.

A janela de contexto inclui três partes:

  • Prompt do sistema: Instruções predefinidas que definem o comportamento do Copilot, como “Você é um assistente de IA para Microsoft 365.” Isso usa de 200 a 500 tokens.
  • Prompt do usuário: O texto que você digita, incluindo documentos, e-mails ou conteúdo de arquivos anexados. Mesmo prompts curtos consomem tokens se você anexar arquivos grandes.
  • Resposta gerada: A saída que o Copilot escreve. Quando a soma do prompt do sistema, prompt do usuário e resposta gerada atinge 8.192 tokens, o Copilot para de gerar e corta a resposta.

Uma segunda causa é o limite máximo de tokens de resposta definido pelo administrador do Microsoft 365. Os administradores podem configurar o Copilot para gerar apenas até um certo número de tokens por resposta, normalmente entre 1.024 e 4.096 tokens. Essa configuração substitui a capacidade natural do modelo. Se o administrador definir um limite baixo, até mesmo um prompt curto produzirá uma resposta truncada.

Etapas para reduzir o truncamento de resposta no Copilot

Estas etapas ajudam a aumentar o tamanho das respostas do Copilot ajustando configurações e mudando a forma como você escreve os prompts.

  1. Verifique seu limite de token atual nas configurações do Copilot
    Abra qualquer interface do Copilot, como o painel do Copilot no Microsoft Edge ou o aplicativo do Copilot no Teams. Clique no menu de três pontos ou no ícone de engrenagem para abrir as Configurações. Procure um controle deslizante chamado Limite de token ou Comprimento máximo da resposta. Mova o controle deslizante para o valor mais alto disponível, geralmente 4.096 tokens. Isso dá ao Copilot mais espaço para gerar uma resposta completa.
  2. Reduza o tamanho dos arquivos ou dados anexados
    Se você anexar um documento do Word, PDF ou thread de e-mail ao seu prompt, o Copilot precisa ler esse conteúdo na janela de contexto. Antes de anexar, reduza o arquivo apenas para as páginas ou seções relevantes. Para e-mails, encaminhe apenas a mensagem específica em vez da thread inteira. Conteúdo anexado mais curto deixa mais tokens para a saída.
  3. Escreva prompts mais curtos com solicitações explícitas de tamanho
    Em vez de um prompt longo que explica o contexto, escreva um prompt conciso que diga exatamente o que você deseja. Adicione uma frase como “Escreva uma resposta completa de pelo menos 500 palavras” ou “Não corte a resposta.” Essa instrução diz ao Copilot para maximizar a resposta dentro do limite de token.
  4. Use o comando Continuar para regenerar o restante da resposta
    Quando o Copilot cortar uma resposta, digite a palavra Continue na caixa de chat e pressione Enter. O Copilot usa o contexto da conversa existente para gerar o próximo segmento da resposta. Repita esse comando até que a saída esteja completa. Esse método funciona porque cada solicitação de Continue abre um novo ciclo de geração dentro da mesma conversa.
  5. Peça ao administrador para aumentar o limite de token do locatário
    Se o controle deslizante de limite de token estiver desabilitado ou definido para um valor baixo, seu administrador do Microsoft 365 impôs uma política. Entre em contato com o administrador e peça para ele navegar até Centro de administração do Microsoft 365 > Copilot > Configurações > Limites de resposta e aumentar o campo Máximo de tokens por resposta para pelo menos 4.096. Os administradores também podem definir esse valor por grupo de usuários usando PowerShell.

Se o Copilot ainda cortar a resposta após ajustar as configurações

O Copilot para de gerar no mesmo ponto toda vez

Esse padrão indica um limite de token rígido imposto pelo modelo ou pela política do administrador. Verifique se o controle deslizante de limite de token está no máximo. Se o controle já estiver em 4.096 e o truncamento ainda ocorrer, o modelo pode estar atingindo a janela de contexto de 8.192 tokens porque seu conteúdo anexado é muito grande. Remova todos os anexos e tente o prompt novamente. Se a resposta for concluída, o problema é o tamanho dos dados anexados.

O Copilot corta mesmo sem anexos e com um prompt muito curto

Quando nenhum arquivo está anexado e o prompt tem menos de 50 tokens, o truncamento geralmente é causado pelo prompt do sistema consumindo uma grande parte da janela de contexto. Alguns locatários do Microsoft 365 têm prompts de sistema personalizados que incluem instruções longas, diretrizes de marca ou avisos de conformidade. Você não pode alterar o prompt do sistema sozinho. Entre em contato com o administrador do Microsoft 365 e peça para ele revisar o Prompt do sistema do Copilot no centro de administração. Um prompt de sistema mais curto libera tokens para a saída.

O Copilot corta no meio de uma palavra ou frase

Esse comportamento é normal quando o modelo atinge exatamente o limite de token. O modelo não termina a frase atual antes de parar. Use o comando Continue conforme descrito na etapa 4. O segmento regenerado começará a partir do último token completo e completará a frase, depois continuará gerando.

Copilot Gratuito vs Copilot para Microsoft 365: limites de token comparados

Item Copilot Gratuito Copilot para Microsoft 365
Modelo base GPT-4o mini ou GPT-4o GPT-4 Turbo
Tamanho da janela de contexto 8.192 tokens 8.192 tokens
Máximo de tokens de resposta padrão 2.048 tokens 4.096 tokens (ajustável pelo administrador)
Suporte a arquivos anexados Apenas imagens Documentos, e-mails, reuniões, imagens
Sobrecarga do prompt do sistema Mínima (200-300 tokens) Maior (400-500 tokens com políticas do locatário)

O Copilot para Microsoft 365 tem um limite máximo de tokens de resposta padrão maior que o Copilot Gratuito, mas a sobrecarga maior do prompt do sistema reduz o espaço efetivo de saída. Ambas as versões usam a mesma janela de contexto de 8.192 tokens, portanto, arquivos anexados têm o mesmo impacto no truncamento.

Para maximizar a saída no Copilot para Microsoft 365, mantenha os arquivos anexados com menos de 2.000 tokens e use o comando Continue para documentos mais longos. No Copilot Gratuito, evite anexar imagens com texto complexo, pois a descrição da imagem também consome tokens. Para ambas as versões, o método mais confiável para evitar truncamento é pedir uma contagem específica de palavras e usar o comando Continue quando a resposta parar.