Também chamado de web crawler, spider ou bot, o crawler é um algoritmo utilizado pelos mecanismos de busca, como Google para rastrear e indexar páginas da web. Ele percorre os sites, identificando conteúdos e links, e armazena informações relevantes em sua base de dados para exibir nos resultados de busca.
Esse processo permite que os buscadores mantenham um índice atualizado, garantindo que novas páginas e atualizações sejam consideradas. Entretanto, algumas páginas que exigem autenticação ou possuem conteúdos restritos não são rastreadas nem indexadas.
Principais ações de um crawler
Além de rastrear e indexar, os crawlers consideram todos os códigos de uma página, links internos e externos, construindo uma espécie de mapa da internet. Além disso, conseguem realizar diversas ações, como:
- Criar cópias dos sites visitados para indexar as páginas;
- Avaliar um site e também seus concorrentes;
- Fornece informações específicas das páginas de um site;
- Coletar informações para a base de dados dos mecanismos de buscas.
Os bots começam com uma lista de URLs para visitar, chamadas de “seeds”, conforme encontra novos links, eles incluem essas páginas na lista para uma varredura. Caso encontre novos conteúdos, ele indexa novamente e o posicionamento nos resultados de busca pode ser alterado.
Etapas do Crawler
Quando o crawler acessa um site, ele segue algumas etapas para determinar se tem permissão para rastrear e indexar as páginas.
Verificação do Robots.txt
O primeiro passo do crawler é analisar o arquivo robots.txt, que informa quais partes do site podem ou não ser rastreadas. Esse arquivo pode permitir ou bloquear o acesso do Googlebot a determinadas seções, funcionando como um guia inicial para o rastreamento.
No entanto, o robots.txt não impede a indexação de URLs bloqueadas se houver links externos apontando para elas.
Análise de Meta Tags e diretrizes na página
Além do robots.txt, o crawler verifica as meta tags inseridas no código HTML das páginas. Algumas das principais diretivas incluem:
- noindex: evita a inclusão na indexação.
- nofollow: instrui os crawlers a não seguirem os links da página, mas o Google pode decidir rastreá-los em certos casos.
- index: permite a indexação da página.
- none: combina noindex e nofollow, impedindo tanto a indexação quanto o rastreamento dos links da página.
Primeiro, o crawler verifica o robots.txt para entender quais áreas do site podem ser rastreadas. Em seguida, acessa as páginas permitidas e analisa as meta tags e diretrizes da página para definir o que pode ser indexado e quais links podem ser seguidos. Isso garante um rastreamento eficiente, respeitando as configurações definidas pelo administrador do site.
Estratégias relacionadas
- Link juice: a estratégia de links constrói níveis de autoridade nos conteúdos que se conectam. É preciso fazer uma estrutura que faça sentido para os usuários, facilitando a análise dos links pelo bot.
- Experiência do usuário: para o ranqueamento das páginas, os bots priorizam os sites que atendem à intenção de busca dos usuários e oferecem boa navegabilidade, como escaneabilidade dos conteúdos.
- Crawl Depth: mostra uma medida de eficiência de rastreamento, observando quão profundo o crawler consegue rastrear os níveis de um site.
- Conteúdo SEO: um conteúdo de qualidade que agregue valor ao usuário é identificado pelo bot e um dos fatores que melhoram o ranqueamento das páginas nos resultados de busca.
Verbetes relacionados
Referência
GOOGLEBOT. Central de Pesquisa Google, [2024]. Disponível em: https://developers.google.com/search/docs/crawling-indexing/googlebot?hl=pt-br. Acesso em: 14 maio 2024.
INTRODUÇÃO ao robots.txt. Central de Pesquisa Google, [2024]. Disponível em: https://developers.google.com/search/docs/crawling-indexing/robots/intro?hl=pt-br. Acesso em: 14 maio 2024.
SAIBA mais sobre sitemaps. Central de Pesquisa Google, [2024]. Disponível em: https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview?hl=pt-br. Acesso em: 14 maio 2024.