Quando você faz uma pergunta ao Copilot no Microsoft 365, ele não adivinha a resposta. Em vez disso, usa uma técnica chamada Retrieval Augmented Generation, ou RAG, para encontrar informações relevantes em suas fontes de dados e então gerar uma resposta. A ordem em que o Copilot apresenta essas fontes não é aleatória nem baseada em simples ordenação alfabética. Este artigo explica a lógica de classificação de fontes que o Copilot usa, como ele determina qual documento aparece primeiro e quais fatores influenciam essa classificação. Entender essa lógica ajuda você a interpretar as respostas do Copilot com mais precisão e a solucionar por que certas fontes são preferidas em vez de outras.
Principais Conclusões: Lógica de Classificação de Fontes do Copilot RAG
- Pontuação de similaridade semântica: O Copilot classifica as fontes pela proximidade do conteúdo com o significado da sua consulta, não apenas por correspondências de palavras-chave.
- Sinais de recência e metadados: Documentos mais novos e aqueles com maior autoridade do autor ou contagem de visualizações podem receber um impulso na classificação.
- Permissões do usuário e controle de acesso: O Copilot recupera apenas documentos que você tem permissão para ler, e a classificação não ignora as barreiras de segurança.
Como o RAG do Copilot Funciona e Por Que a Classificação é Importante
O Retrieval Augmented Generation no Copilot para Microsoft 365 funciona em duas fases. Primeiro, o Copilot pesquisa seus dados do Microsoft Graph, que incluem e-mails, arquivos no SharePoint e OneDrive, entradas de calendário e mensagens do Teams. Ele converte sua consulta e cada documento em representações matemáticas chamadas embeddings. Esses embeddings capturam o significado semântico, não apenas palavras-chave exatas. Segundo, o Copilot calcula uma pontuação de similaridade entre o embedding da sua consulta e o embedding de cada documento. Documentos com pontuações de similaridade mais altas são classificados mais acima e usados como contexto para o modelo de linguagem grande gerar a resposta final.
A lógica de classificação afeta diretamente a qualidade e relevância das respostas do Copilot. Se um documento de baixa relevância for classificado em primeiro lugar, a resposta gerada pode ser imprecisa ou perder detalhes importantes. A Microsoft usa um algoritmo de classificação proprietário que combina similaridade semântica com sinais adicionais. Este artigo detalha esses sinais e explica como você pode influenciar a classificação por meio da qualidade do conteúdo e práticas de metadados.
Pontuação de Similaridade Semântica
O fator principal na classificação de fontes é a similaridade de cosseno entre o embedding da consulta e o embedding do documento. A similaridade de cosseno mede o ângulo entre dois vetores em um espaço multidimensional. Um valor próximo de 1 significa que o documento é altamente relevante para a consulta. O Copilot usa essa pontuação para ordenar as fontes da mais relevante para a menos relevante. Essa abordagem permite que o Copilot encontre documentos que usam palavras diferentes, mas compartilham o mesmo significado da sua pergunta. Por exemplo, uma consulta sobre “crescimento de receita trimestral” pode corresponder a um documento intitulado “Resumo de Desempenho Financeiro do 3º Trimestre”, mesmo que a frase exata “crescimento de receita trimestral” não apareça no documento.
Sinais de Recência e Atualização
O Copilot aplica um impulso de recência a documentos que foram modificados ou criados mais recentemente. Esse impulso é aplicado após a classificação semântica inicial. A ponderação exata não é documentada publicamente pela Microsoft, mas testes internos mostram que um documento criado hoje será classificado mais alto do que um documento idêntico criado há um ano, tudo o mais constante. Para consultas sensíveis ao tempo, como “últimos números de vendas” ou “notas da reunião desta semana”, o sinal de recência se torna mais influente. O Copilot lê os metadados LastModifiedTime e CreatedTime do SharePoint e OneDrive para determinar a atualização.
Sinais de Autoridade e Uso
O Copilot também considera sinais relacionados à autoridade do documento e ao engajamento do usuário. Documentos escritos por pessoas com cargo organizacional mais alto ou que foram visualizados com frequência por outros na sua organização podem receber um pequeno impulso na classificação. A Microsoft não divulga o algoritmo exato, mas a intenção é promover conteúdo que a organização validou implicitamente como útil. Documentos com altas contagens de visualizações, muitos comentários ou atividade frequente de compartilhamento têm mais chances de aparecer mais acima na lista de fontes classificadas.
Passos para Inspecionar a Classificação de Fontes do Copilot no Seu Locatário
Você não pode visualizar diretamente as pontuações brutas de classificação que o Copilot calcula. No entanto, você pode observar a ordem das fontes nas respostas do Copilot e inferir a lógica de classificação. Os passos a seguir ajudam você a testar e entender como a classificação funciona com seus próprios dados.
- Crie documentos de teste com diferenças conhecidas
Carregue dois documentos na mesma biblioteca do SharePoint. O Documento A deve conter conteúdo altamente relevante para uma consulta específica, e o Documento B deve conter conteúdo menos relevante. Por exemplo, Documento A: “O orçamento de marketing de 2024 é de R$ 500.000 alocados para anúncios digitais.” Documento B: “O orçamento de operações de 2024 é de R$ 200.000 alocados para equipamentos.” Faça ao Copilot uma consulta como “Qual é o orçamento de marketing de 2024?” Observe qual documento aparece primeiro na lista de citações da resposta. O Documento A deve ser classificado mais alto devido à similaridade semântica. - Altere a data de modificação do documento com classificação inferior
Após o passo 1, atualize o Documento B para que seu LastModifiedTime seja hoje. Use uma chamada de API do SharePoint ou edite e salve o documento manualmente. Faça a mesma consulta novamente. Se o Documento B agora aparecer mais alto, apesar da menor relevância semântica, o impulso de recência está ativo no seu locatário. Este teste confirma que a recência pode substituir a similaridade semântica em alguns casos. - Adicione contagens de visualização ao documento com classificação inferior
Abra o Documento B várias vezes de diferentes contas de usuário ou use um script para simular visualizações. Após acumular pelo menos 50 visualizações, faça a consulta novamente. Verifique se o Documento B sobe na classificação. Este teste revela se os sinais de uso estão influenciando a ordem. - Compare a classificação com diferentes permissões de usuário
Peça a um usuário que não tem acesso ao Documento A para fazer a mesma consulta. O Copilot não retornará o Documento A. Isso confirma que as permissões são aplicadas antes da classificação. Fontes que o usuário não pode acessar são excluídas completamente do conjunto de recuperação.
Equívocos Comuns Sobre a Classificação de Fontes do Copilot
O Copilot Sempre Mostra a Melhor Fonte Primeiro
Muitos usuários assumem que a primeira fonte listada é sempre a mais precisa ou autoritativa. Isso não está correto. A primeira fonte é aquela com a pontuação combinada mais alta de similaridade semântica, recência e sinais de autoridade. Um documento altamente relevante, mas muito antigo, pode ser classificado abaixo de um documento moderadamente relevante, mas muito novo. Sempre verifique o conteúdo da fonte principal antes de confiar nela.
A Classificação é Baseada em Correspondências Exatas de Palavras-Chave
O Copilot não usa pesquisa tradicional de palavras-chave para classificação. O modelo de embedding captura conceitos e significado, não palavras exatas. Um documento que usa sinônimos ou paráfrases da sua consulta pode ser classificado mais alto do que um documento que contém a frase exata da consulta, mas tem menor relevância semântica. Isso é proposital para melhorar a descoberta de conteúdo relevante que usa terminologia diferente.
Você Pode Aumentar Manualmente a Classificação de um Documento
Não há uma configuração visível ao usuário para fixar um documento no topo dos resultados de pesquisa do Copilot. Você não pode atribuir uma pontuação de prioridade ou classificação manualmente. A única maneira de influenciar a classificação é melhorar a qualidade do conteúdo do documento, atualizá-lo com frequência e incentivar o uso dentro da organização. Propriedades gerenciadas do SharePoint como RefinableString00 não são usadas pela classificação do Copilot.
| Item | Similaridade Semântica | Impulso de Recência |
|---|---|---|
| Fator principal | Sim | Secundário |
| Baseado em | Similaridade de cosseno do embedding | Metadados LastModifiedTime |
| Efeito na classificação | Ordena fontes da mais para a menos relevante | Move documentos mais novos para cima |
| Controle do usuário | Escreva conteúdo claro e focado | Atualize documentos regularmente |
A classificação de fontes do Copilot é um sistema multifatorial onde a similaridade semântica é o sinal dominante, mas a recência e a autoridade podem alterar a ordem. Você não pode substituir a classificação manualmente, mas pode otimizar seu conteúdo para classificar mais alto. Escreva documentos que respondam diretamente a perguntas prováveis, mantenha-os atualizados e promova seu uso dentro da sua equipe. Para refinar ainda mais seu entendimento, teste a classificação com documentos controlados usando os passos deste artigo. Para cenários avançados, revise as permissões do Microsoft Graph e as configurações de tipo de conteúdo do SharePoint para garantir que todos os documentos relevantes sejam detectáveis.