Ao enviar um vídeo para o Microsoft Stream, o Copilot pode responder perguntas com base na transcrição e no conteúdo falado do vídeo. No entanto, a transcrição não fica disponível para o Copilot instantaneamente. Os usuários geralmente veem uma mensagem informando que o Copilot ainda não está pronto ou que a transcrição ainda está sendo processada. Esse atraso é causado pelo pipeline de indexação que o Azure AI Speech e o Microsoft 365 usam para gerar e armazenar a transcrição. Este artigo explica as etapas técnicas por trás da latência, o que afeta o tempo de processamento e como planejar seu fluxo de trabalho em torno desse atraso.
Principais Conclusões: Indexação de Transcrições do Copilot no Microsoft Stream
- Serviço de transcrição Azure AI Speech: Processa o áudio dos vídeos enviados e gera uma transcrição de texto, que é o primeiro passo antes que o Copilot possa acessar o conteúdo.
- Pipeline de indexação do Microsoft Graph: Armazena a transcrição e a torna pesquisável pelo Copilot, geralmente levando de 30 minutos a várias horas, dependendo da duração do vídeo e da carga do sistema.
- Duração e formato do vídeo: Vídeos mais longos e formatos de áudio complexos aumentam o tempo de indexação, enquanto legendas pré-gravadas podem reduzir ou eliminar o atraso.
Por que o Copilot não consegue acessar as transcrições do Stream imediatamente
O Copilot depende do Microsoft Graph para recuperar dados de transcrição dos vídeos do Stream. Quando você envia um vídeo, as seguintes etapas devem ser concluídas antes que o Copilot possa responder perguntas:
Etapa 1: Extração de áudio e reconhecimento de fala
O Azure AI Speech primeiro extrai a faixa de áudio do arquivo de vídeo. Em seguida, converte as palavras faladas em uma transcrição de texto usando reconhecimento automático de fala. Esse processo consome muitos recursos computacionais, especialmente para vídeos com ruído de fundo, vários falantes ou idiomas não ingleses. O serviço processa o áudio em partes, e o tempo total depende da duração do vídeo. Um vídeo de 10 minutos pode levar de 5 a 15 minutos para ser transcrito. Um vídeo de 60 minutos pode levar de 30 a 60 minutos.
Etapa 2: Armazenamento e indexação da transcrição no Microsoft Graph
Depois que a transcrição é gerada, o Microsoft 365 a armazena como um arquivo de metadados anexado ao objeto de vídeo no Microsoft Graph. O sistema então indexa a transcrição para que o Copilot possa pesquisar e recuperar segmentos relevantes. A indexação inclui dividir a transcrição em partes com carimbo de data/hora, mapear rótulos de falantes e construir um índice de pesquisa semântica. Essa etapa adiciona mais 15 a 30 minutos para a maioria dos vídeos. Durante horários de pico de uso, a fila pode causar atrasos adicionais.
Etapa 3: Processamento de consultas do Copilot
Após a conclusão da indexação, o Copilot pode aceitar consultas sobre o vídeo. Quando você faz uma pergunta, o Copilot pesquisa a transcrição indexada usando o Microsoft Graph e retorna o segmento mais relevante com um carimbo de data/hora. Se a indexação ainda estiver em andamento, o Copilot retorna uma mensagem informando que o vídeo não está pronto ou que a transcrição não está disponível. Todo o pipeline, desde o upload até a prontidão do Copilot, geralmente leva de 30 minutos a 2 horas para vídeos padrão. Para vídeos muito longos ou com qualidade de áudio ruim, pode levar até 4 horas.
Fatores que afetam a latência da indexação
Várias variáveis influenciam a rapidez com que o Copilot pode acessar uma transcrição:
- Duração do vídeo: Vídeos mais longos demoram mais para serem transcritos e indexados. Um vídeo de 5 minutos pode ficar pronto em 20 minutos, enquanto um vídeo de 2 horas pode levar de 3 a 4 horas.
- Qualidade do áudio: Vídeos com fala clara, ruído de fundo mínimo e um único falante são transcritos mais rapidamente. Qualidade de áudio ruim ou vários falantes sobrepostos aumentam o tempo de processamento.
- Idioma e sotaque: O Azure AI Speech suporta mais de 100 idiomas, mas alguns idiomas ou sotaques regionais podem exigir mais ciclos de processamento.
- Carga do sistema: Durante o horário comercial, quando muitas organizações enviam vídeos, a fila de indexação pode desacelerar o processamento. Enviar vídeos fora do horário de pico pode reduzir o tempo de espera.
- Legendas pré-existentes: Se o vídeo já tiver legendas enviadas manualmente ou um arquivo de transcrição pré-gerado no formato WebVTT, o Copilot pode usar esses dados imediatamente. O pipeline de indexação pula a etapa de reconhecimento de fala e vai direto para a indexação, que leva apenas 5 a 10 minutos.
Como verificar o status da indexação da transcrição
Você pode verificar se o Copilot indexou um vídeo usando o aplicativo web do Stream ou a API do Microsoft Graph.
Usando o aplicativo web do Stream
- Abra o vídeo no Microsoft Stream
Navegue até o vídeo que você enviou e clique no título do vídeo para abrir a página de reprodução. - Verifique o painel de transcrição
Clique no ícone de Transcrição na barra de ferramentas inferior. Se uma transcrição completa com carimbos de data/hora aparecer, a indexação está concluída. Se você vir uma mensagem informando que a transcrição está sendo gerada, o pipeline ainda está em execução. - Teste o Copilot
Abra o Copilot no Microsoft 365 e faça uma pergunta sobre o conteúdo do vídeo. Por exemplo, pergunte Quais foram os pontos-chave no vídeo da estratégia de marketing? Se o Copilot retornar uma resposta com um carimbo de data/hora, a indexação está concluída. Se o Copilot disser que não consegue encontrar informações, aguarde 30 minutos e tente novamente.
Usando a API do Microsoft Graph
- Envie uma solicitação GET para o endpoint de metadados do vídeo
Use o endpoint da API Graph:https://graph.microsoft.com/v1.0/me/drive/items/{video-id}/microsoft.graph.video. Substitua{video-id}pelo ID real do arquivo. - Examine a propriedade transcriptProcessingStatus
A resposta inclui uma propriedade chamadatranscriptProcessingStatus. O valorcompletedsignifica que a indexação está concluída.processingsignifica que o pipeline ainda está em execução.failedindica um erro que requer o reenvio do vídeo.
Problemas comuns com indexação de transcrições e Copilot
Copilot não retorna resultados mesmo após a conclusão da indexação
Se o status da transcrição mostrar concluído, mas o Copilot ainda não conseguir responder perguntas, o problema provavelmente é de permissão. O usuário deve ter pelo menos acesso de leitura ao arquivo de vídeo no Stream. Verifique se o vídeo está armazenado em um site do SharePoint ou pasta do OneDrive onde o usuário tenha permissões de Visualização ou Edição. Confirme também se a licença do Microsoft 365 Copilot está atribuída ao usuário e se o vídeo está em um formato suportado MP4, WMV ou MOV com faixa de áudio.
A transcrição mostra seções incompletas ou ausentes
O Azure AI Speech pode falhar ao transcrever seções com música de fundo pesada, fala muito baixa ou diálogo sobreposto rápido. Nesses casos, a transcrição terá lacunas. Para corrigir isso, envie manualmente um arquivo de legenda WebVTT antes ou depois de enviar o vídeo. O Copilot usará as legendas manuais em vez da transcrição gerada automaticamente, e o tempo de indexação cai para menos de 10 minutos. Para adicionar legendas, vá para Stream > vídeo > Detalhes > Legendas > Enviar legendas e selecione um arquivo .vtt.
A indexação leva mais de 4 horas
Se um vídeo exceder 4 horas de tempo de processamento, o pipeline pode ter encontrado um erro. Verifique o transcriptProcessingStatus usando a API Graph. Se o status for failed, exclua o vídeo e faça o upload novamente. Antes de reenviar, converta o vídeo para um formato padrão MP4 com codec H.264 e áudio AAC a 128 kbps ou superior. Evite taxas de quadros variáveis ou codecs incomuns como VP9 ou HEVC, pois eles podem causar falhas na transcrição.
Copilot com transcrição gerada automaticamente vs Copilot com legendas manuais
| Item | Transcrição Gerada Automaticamente | Legendas Manuais WebVTT |
|---|---|---|
| Tempo de indexação | 30 minutos a 4 horas | 5 a 10 minutos |
| Precisão | Alta para áudio claro, menor para fala ruidosa ou com sotaque | 100% precisa se as legendas estiverem corretas |
| Identificação do falante | Automática, pode rotular falantes incorretamente | Manual, pode atribuir nomes exatos de falantes |
| Suporte a idiomas | Mais de 100 idiomas | Qualquer idioma em que as legendas estejam escritas |
| Qualidade da resposta do Copilot | Boa, pode perder contexto em seções ruidosas | Excelente, sem lacunas na transcrição |
Para vídeos críticos onde você precisa que o Copilot funcione imediatamente após o upload, prepare um arquivo de legenda WebVTT com antecedência. Para vídeos onde a rapidez é menos importante, a transcrição gerada automaticamente funciona bem após o atraso de indexação.
Agora você entende por que o Copilot não consegue acessar as transcrições do Stream logo após o upload. O atraso vem do processamento de áudio pelo Azure AI Speech e da indexação do resultado pelo Microsoft Graph. Para acelerar o processo, envie legendas manuais antes ou logo após o vídeo. Para monitoramento contínuo, verifique o painel de transcrição no Stream ou use a API Graph para confirmar quando a indexação for concluída. Como próximo passo, revise a programação de upload de vídeos da sua organização e considere enviar vídeos longos fora do horário de pico para reduzir o tempo de espera na fila. Se você precisa de acesso instantâneo ao Copilot com frequência, configure um fluxo de trabalho que anexe automaticamente um arquivo WebVTT a cada novo upload de vídeo usando o Power Automate.