Como importar URLs de um Sitemap XML pelo Google Sheets

Veja uma maneira prática de obter todas as páginas listadas em um Sitemap XML.

Vamos para o nosso segundo artigo dessa série que dá alguns exemplos práticos de como utilizar os recursos do Google Sheets para fazer e SEO e não ficar tão dependente de algumas ferramentas.

Se você leu o primeiro artigo, em que falo sobre o uso do Google Sheets para validações técnicas de SEO, eu comentei alguns exemplos de como poderíamos aplicar a fórmula IMPORTXML e um deles era a questão de extrair dados de um XML (além de uma página padrão HTML).

Neste caso, a ideia é a mesma. Nós passamos qual URL queremos pegar uma informação e no parâmetro seguinte qual o XPath que corresponde aquela informação. O que vai seguir uma estrutura semelhante a esta fórmula no Google Sheets:

=IMPORTXML(url_do_sitemap_xml; consulta_xpath)

Só com essa estrutura ele já retorna uma lista com todas as URLs presentes no Sitemap XML informado. Mas atenção, dependendo do tamanho do arquivo que você consulte (até próximo a 1.000 URLs essa estrutura aguenta bem), alguns erros podem acontecer e talvez você tenha que contornar usando algum script que faça essa requisição progressivamente.

Como comentei, você consegue fazer essas mesmas extrações por meio de outros softwares de SEO ou de scripts personalizados, mas o foco aqui é utilizando o Google Sheets. Caso você tenha um volume alto de páginas listadas, softwares como Screaming Frog Spider podem ser a melhor alternativa por permitir que você importe as URLs por meio de uma URL de Sitemap.

XPath do <loc> num Sitemap XML

O segredo para extrair as URLs está em como você usa o XPath. Na época que pesquisei para fazer essa consulta nas URLs, encontrei vários exemplos, mas o XPath que realmente funcionou foi o seguinte: //*[local-name() ='url']/*[local-name() ='loc']").

E aplicando em um exemplo prático:

=IMPORTXML("https://ecto.digital/sitemap.xml";"//*[local-name() ='url']/*[local-name() ='loc']")

Lembra da dica das aspas simples do outro artigo? Então, não esqueça dela aqui!

E para facilitar, deixei uma planilha de exemplo para você fazer uma cópia e testar com um exemplo real.

planilha-exemplo-seo-xml-google-sheets

Planilha com exemplos para validação de SEO

Planilha de exemplo com o XPath para localizar as URLs de um Sitemap XML

Obtendo outras informações

O bom do XPath do exemplo anterior é que ele pode ser facilmente adaptado para obter outras informações dentro de um XML. Por exemplo, se tivesse o seguinte código num Sitemap XML:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://ecto.digital/</loc>
    <lastmod>2020-01-12</lastmod>
  </url>
</urlset>

E eu quisesse obter o valor da data da última modificação representada pelo <lastmod>, seria só alterar o loc por lastmod no nosso XPath:

=IMPORTXML("https://ecto.digital/sitemap.xml";"//*[local-name() ='url']/*[local-name() ='lastmod']")

Fácil né? Só alterar o loc por lastmod. Aproveita o modelo que disponibilizei aqui e faz o teste com outras informações de um sitemap do seu site!

Outras ideias com XML

Nos parágrafos acima eu segui uma linha de raciocínio em cima de um arquivo de XML padrão que comumente é utilizado em SEO. Mas nada te impede de aplicar isso em outros arquivos XML como:

  • Sitemap de Índice.
  • XML do Google Shopping.
  • XML de algum agregador como Buscapé.
  • Mapear as URLs do concorrente (muitas plataformas deixam as URLs desses arquivos em um endereço padrão ou dentro do robots.txt).

Outros cenários em que isso é útil

Já vivenciei alguns projetos em que havia muita dificuldade (ou até mesmo não havia o recurso) em extrair determinados relatórios com as URLs do site e muitas vezes o site só tinha um XML do Google Shopping. O que acabava sendo a salvação, pois ele vem com umas informações adicionais e era muito útil quando queria obter algumas informações adicionais sobre a URL (ex: como a categoria com um nome amigável).

Você pode utilizar também em casos de migração, como uma forma de verificar se todas URLs estão presentes no seu planejamento de redirecionamentos.

E sobre essa planilha de exemplo deste artigo, você pode avançar mais e obter informações como:

  • Status code das páginas do XML (se apresenta algum erro ou redirecionamento).
  • Usar outro IMPORTXML para obter outras informações dentro dessas páginas (ex: o title e description).
  • Avaliar as métricas relacionadas a página (fazendo um PROCV num relatório do Google Analytics ou do Google Search Console).
  • Essa última pode te ajudar bastante em priorizar algumas atividades e avaliar se há algum erro no seu arquivo.

E aí, o que achou dessa aplicação para o IMPORTXML? Não deixa de comentar se esse exemplo foi útil para você e compartilhar a sua experiência caso tenha utilizado ela para algum outro caso.

Categoria(s):
Newsletter
Ruan Barbosa logo

Ruan Barbosa

Fundador e Especialista de SEO na Ecto

Formado em Física e Mestre em Educação pela UFPR, possuí experiência com SEO desde 2010. Nesse período trabalhou com contas de pequeno, médio e grande porte, dentre elas: Avon, B2W (Americanas, Shoptime e Submarino), Nerdstore, 3M, TIM, Tecnisa e Saraiva.

Veja também

comments powered by Disqus

Solicitar Orçamento

Converse com um Especialista em SEO e entenda quais são as oportunidades de crescimento orgânico para o seu site.