Você envia um arquivo PDF para uma biblioteca de documentos do SharePoint, mas os resultados da pesquisa não o mostram por horas ou até dias. Esse atraso ocorre porque a pesquisa do SharePoint depende de um processo de rastreamento agendado, não de indexação em tempo real de novos arquivos. Neste artigo, você aprenderá por que os arquivos PDF não são imediatamente pesquisáveis e como forçar a indexação ou ajustar os agendamentos de rastreamento para corrigir o problema.
Principais conclusões: corrigindo a pesquisa atrasada de PDF no SharePoint
- Central de administração do SharePoint > Pesquisa > Agendamentos de rastreamento: Configure o agendamento de rastreamento incremental e completo para fontes de conteúdo para reduzir o atraso na pesquisa.
- Configurações do site > Pesquisa e disponibilidade offline > Reindexar biblioteca: Force uma reindexação imediata de uma biblioteca de documentos para novos arquivos PDF.
- Configuração do PDF IFilter: Certifique-se de que o PDF IFilter esteja instalado e habilitado no servidor SharePoint para extração adequada de texto.
Por que a pesquisa do SharePoint não encontra novos arquivos PDF imediatamente
A pesquisa do SharePoint não indexa arquivos no momento em que são enviados. Em vez disso, o serviço de pesquisa é executado em um agendamento. Ele rastreia as fontes de conteúdo em intervalos definidos, processa o conteúdo e atualiza o índice de pesquisa. Esse processo é chamado de rastreamento.
Por padrão, o SharePoint Server realiza um rastreamento incremental a cada 15 minutos e um rastreamento completo diariamente. O SharePoint Online no Microsoft 365 usa um agendamento semelhante, mas menos transparente. Novos arquivos PDF enviados entre os rastreamentos não aparecerão nos resultados da pesquisa até que o próximo rastreamento incremental seja concluído.
Os arquivos PDF também exigem um filtro especial chamado IFilter para extrair texto do formato binário. Se o PDF IFilter estiver ausente, desatualizado ou configurado incorretamente, o rastreador de pesquisa não conseguirá ler o conteúdo do PDF. O arquivo pode ser indexado, mas não retornará texto pesquisável.
Uma terceira causa é o esquema de pesquisa. Se os metadados do arquivo PDF não corresponderem às propriedades gerenciadas usadas para pesquisa, o arquivo pode ser ignorado ou não retornado nos resultados. Esse problema é menos comum, mas pode afetar bibliotecas personalizadas com colunas exclusivas.
Etapas para corrigir a pesquisa que não encontra novos arquivos PDF
- Force uma reindexação da biblioteca de documentos
Vá para a biblioteca de documentos onde os arquivos PDF estão armazenados. Clique no ícone de engrenagem para Configurações e selecione Configurações da biblioteca. Em Permissões e Gerenciamento, clique no link chamado Configurações avançadas. Role para baixo até a seção Reindexar Biblioteca de Documentos e clique no botão Reindexar Biblioteca de Documentos. Isso aciona uma reindexação completa de todos os arquivos nessa biblioteca no próximo rastreamento. - Solicite um rastreamento imediato no SharePoint Server
Se você usa o SharePoint Server local, abra a Administração Central. Vá para Gerenciamento de Aplicativos > Gerenciar aplicativos de serviço e clique no aplicativo de serviço de Pesquisa. Na navegação à esquerda, clique em Fontes de Conteúdo. Selecione a fonte de conteúdo que inclui sua coleção de sites e clique em Iniciar Rastreamento Completo ou Iniciar Rastreamento Incremental. O rastreamento começa imediatamente e atualizará o índice. - Verifique se o PDF IFilter está instalado e habilitado
No servidor SharePoint, abra o Editor do Registro. Navegue até HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\16.0\Search\Setup\ContentIndexCommon\Filters\Extension\.pdf. Verifique se o valor padrão aponta para um CLSID de IFilter válido. Para o Adobe PDF IFilter, o CLSID geralmente é {E8978DA6-047F-4E3D-9C78-CDBE46041603}. Se a chave estiver ausente, baixe e instale o Adobe PDF IFilter do site da Adobe e reinicie o serviço de Pesquisa do SharePoint. - Verifique o esquema de pesquisa para metadados de PDF
Na Central de administração do SharePoint, vá para Pesquisa > Esquema de Pesquisa. Procure por propriedades gerenciadas que mapeiam campos de metadados de PDF como Título, Autor ou Palavras-chave. Se o mapeamento estiver incorreto, edite a propriedade gerenciada ou crie uma nova. Certifique-se de que a propriedade esteja definida como Pesquisável e Consultável. - Teste com um arquivo de texto simples
Envie um arquivo de texto simples (.txt) para a mesma biblioteca. Aguarde o próximo rastreamento e pesquise uma palavra desse arquivo de texto. Se o arquivo de texto aparecer nos resultados da pesquisa, mas o PDF não, o problema é específico do tratamento de PDF. Se nenhum arquivo aparecer, o agendamento de rastreamento ou a configuração da fonte de conteúdo é a causa raiz.
Se a pesquisa ainda não encontrar novos arquivos PDF
Arquivos PDF aparecem na pesquisa, mas não mostram visualização de conteúdo
Isso indica que o PDF IFilter não está extraindo texto. Reinstale o PDF IFilter e verifique se ele está registrado no pipeline de filtros. No SharePoint Server, você pode executar o comando regsvr32 pdfilter.dll de um prompt de comando elevado para forçar o registro.
A pesquisa retorna arquivos PDF antigos, mas não os novos
O rastreamento incremental pode estar ignorando a biblioteca devido a um problema no log de alterações. No SharePoint Server, execute um rastreamento completo na fonte de conteúdo. Isso redefine o log de alterações e força o rastreador a reprocessar todos os arquivos.
Os resultados da pesquisa não mostram nenhum arquivo PDF
O tipo de arquivo pode estar excluído do índice de pesquisa. No SharePoint Server, vá para Administração Central > Aplicativo de Serviço de Pesquisa > Tipos de Arquivo. Certifique-se de que pdf esteja listado e definido como Indexar. Se não estiver, adicione-o e execute um rastreamento completo.
A pesquisa funciona em uma coleção de sites, mas não em outra
A coleção de sites pode não estar incluída na fonte de conteúdo. No SharePoint Server, verifique os endereços iniciais da fonte de conteúdo no aplicativo de serviço de Pesquisa. Adicione a URL da coleção de sites ausente e execute um rastreamento completo.
Reindexação manual vs. Agendamento de rastreamento: comparação
| Item | Reindexação manual | Agendamento de rastreamento |
|---|---|---|
| Método de acionamento | Configurações da biblioteca > Botão Reindexar | Administração Central > Fontes de Conteúdo > Iniciar Rastreamento Completo |
| Escopo | Biblioteca de documentos única | Fonte de conteúdo inteira (uma ou mais coleções de sites) |
| Efeito em outros arquivos | Reindexa todos os arquivos nessa biblioteca | Reindexa todos os arquivos na fonte de conteúdo |
| Velocidade | Rápida para bibliotecas pequenas | Lenta para fontes de conteúdo grandes |
| Melhor caso de uso | Novos arquivos PDF não aparecendo após o envio | Problemas de pesquisa em todo o sistema ou alterações de esquema |
Após seguir as etapas acima, você pode confirmar que a pesquisa do SharePoint agora encontra arquivos PDF recém-enviados. Para confiabilidade contínua, agende um rastreamento completo noturno no SharePoint Server ou monitore o painel de integridade da pesquisa no SharePoint Online. Se você gerencia um farm grande, considere ajustar o intervalo de rastreamento incremental para 5 minutos para fontes de conteúdo que exigem indexação quase em tempo real.