Você viu a última Fuga de Dados do Google compartilhada por Rand Fishkin? Está fazendo ondas na comunidade de SEO e além, sendo destaque em publicações de topo como Search Engine Journal, Search Engine Land, New York Post, Business Insider e Entrepreneur.
Recentemente, um documento interno do Google foi vazado após ser descoberto, e todos os consultores de SEO do mundo têm falado sobre isso desde então. Deve-se dizer que ele fornece acesso a muitos elementos que poderiam ser integrados ao atual algoritmo de pesquisa.
Os dados compartilhados listam dezenas e dezenas de critérios técnicos, cada vez com informações explicando-os de um olhar, bem como seu formato.
Alguns profissionais de SEO estão falando sobre este vazamento como a melhor coisa que já aconteceu no mundo do SEO. Outros estão protestando contra o fato de que o Google nos mentiu sobre certos assuntos (embora já tivéssemos provas dessas mentiras do mecanismo de pesquisa inúmeras vezes, principalmente através de certos funcionários do Google, como John Mueller).
Vamos examinar isso em detalhes.
Informações de SEO devem ser tomadas com cuidado!
Acima de tudo, tenha cuidado!
Tudo escrito neste artigo (ou nos outros artigos) é uma interpretação de documentos internos do Google. De jeito nenhum isso nos permite afirmar certos elementos com certeza, por várias razões:
- Não nos dá o peso de cada elemento no algoritmo geral. Se, por exemplo, você for informado em um artigo que esse critério é muito importante, isso é falso: não há nada de certo. Ele poderia muito bem ser de pouca importância;
- Nada nos diz se o Google modificou ou modificará alguns desses elementos;
- Além disso, cuidado com interpretações exageradas: as descrições são frequentemente bastante obscuras e podem ser mal interpretadas;
- Os documentos também falam sobre o YouTube, o Google Lens ou outros serviços da empresa americana. Portanto, não se trata apenas de referenciamento natural;
- Os documentos também não indicam se esses são elementos de teste, elementos atualmente usados em todo o lugar ou critérios usados em certos casos (por exemplo, em fases de teste ou em tópicos muito específicos).
A única coisa que podemos dizer é que este documento nos dá pelo menos uma ideia dos elementos em que o Google está trabalhando (ou trabalhou ou provavelmente trabalhará em breve).
O que contém esse vazamento de dados?
Entre os artigos que já falaram sobre isso, alguns pontos passaram um pouco despercebidos, enquanto outros já eram conhecidos há algum tempo (alguns há anos).
Então, aqui está o que você não deve perder sobre esse vazamento de dados, e vamos começar primeiro com o que já sabíamos (a menos que você mora em uma caverna)
O Google Chrome não é sempre seu amigo
Muitos elementos nesses documentos indicam o uso de dados do navegador Google Chrome, incluindo as páginas visitadas e o tempo gasto nelas.
Nada de surpreendente aqui.
Já sabíamos que o mecanismo de pesquisa recuperava muitos dados diretamente de seu próprio mecanismo ou através do navegador Google Chrome. Isso tem sido o caso, por exemplo, há anos com informações relacionadas aos tempos de carregamento.
São os dados do usuário que definem se sua página é considerada “lenta”, “precisa de melhorias” ou “rápida”.
No Google Page Speed, a ferramenta deixa claro que os dados exibidos vêm “da experiência de seus usuários” (screenshot do autor).
Interações do usuário da Internet e navboost
No final do ano passado, durante seu julgamento antitruste, as equipes do Google foram forçadas a declarar publicamente que estavam de fato usando interações de usuários, em particular cliques em resultados (e comportamento do usuário uma vez que chegassem ao site final). Foi a primeira vez que ouvimos falar do Navboost.
Esta parte do algoritmo permite que o Google “reajuste” os resultados com base nos cliques de diferentes usuários (com base nos dados do usuário dos últimos 13 meses). Em outras palavras, quanto mais usuários clicam em um resultado, mais visibilidade ele ganha.
Este vazamento confirma o poder da manipulação da CTR como uma estratégia legítima de SEO.
- Validação da CTR: o sistema NavBoost do Google confirma a taxa de cliques (CTR) como um fator de classificação crítico. Aumente a CTR do seu site com o SERPEmpire.com (Eu já testei) ou outra ferramenta SERP e observe a melhoria na classificação.
- Aproveite os sistemas do Google: os documentos vazados fornecem informações sobre os sistemas NavBoost e Glue. As ferramentas SERP podem ajudá-lo a usar essas informações para melhorar sua visibilidade no Google.
- Foque na engajamento do usuário: os cliques longos são mais importantes. As ferramentas SERP aumentam não apenas os cliques, mas também o engajamento significativo do usuário, melhorando o impacto geral do SEO.
- Estratégias geodirecionadas: com o ênfase do Google no geofencing, as ferramentas SERP adaptam estratégias para impulsionar suas classificações regionais de maneira eficaz.
No entanto, é impossível medir a importância desse critério em comparação com os outros (mesmo que alguns testes de SEO já tenham mostrado isso). O que é interessante, no entanto, é que o documento fornece mais detalhes. Primeiro, o Google classificaria os cliques dos usuários em três tipos:
- O clique “esmagado”, que seria ignorado;
- O clique curto: o usuário da internet clica em um resultado, mas não fica lá “por muito tempo”;
- O clique longo (e qualitativo): o usuário clica em um resultado e fica lá por mais tempo.
Isso significaria, portanto, que não apenas teríamos que obter cliques em nossos resultados para aumentá-los, mas também teríamos que garantir que eles continuem navegando por um tempo mínimo.
Outro elemento destacado neste vazamento de dados é que os dados do Chrome também são usados pelo Google para determinar o conteúdo popular de um site e, em seguida, adicioná-lo aos Sitelinks (aqueles “sublinks” do resultado principal de um site)
Aqui estão os Sitelinks para a página da web The Washington Post / Screenshot do autor
Além disso, o uso das ações dos usuários da Internet não é novo em si.
O Google tem sido registrando patentes nesse sentido há muito tempo, como esta que potencialmente permitiria que o mecanismo de pesquisa oferecesse aos usuários da Internet os resultados de uma segunda pesquisa durante sua pesquisa inicial (quando um grande número de usuários da Internet refina sua pesquisa inicial e, portanto, não considera os resultados iniciais relevantes).
Não todos os sites são iguais
Já sabíamos disso também.
Na verdade, o Google usa listas brancas para certos tópicos, (o que o favorece muito nas pesquisas, se você estiver nessas listas). Ele faz isso, por exemplo, na área da saúde (particularmente com o COVID). Nada de novo sob o sol, então.
LINKS
Há várias coisas interessantes sobre links. Primeiro, o Google classificaria os links em 3 “grupos de qualidade”:
- Baixo;
- Médio;
- Forte.
Aqueles na categoria inferior seriam ignorados e aqueles na categoria superior teriam muito mais impacto. Suspeitávamos disso e também é uma classificação lógica para um mecanismo de pesquisa. No entanto, o documento infelizmente não indica de acordo com quais critérios precisos os links são classificados nessas categorias.
Por outro lado, os documentos vazados fornecem outras informações sobre o que o Google pode usar. Por exemplo, um link também é classificado de acordo com um “SourceType”, que determina a “qualidade” da página de origem do link.
Novamente, nada de surpreendente se o Google também julga a relevância da página vinculada a você (se for lógico, o SourceType seria logicamente usado para classificar links em grupos de qualidade).
Dois outros pontos chamaram minha atenção sobre links:
- Um atributo “fontsize” que verifica o tamanho do link (o que permite supor que o Google quer julgar se é um link real utilizável pelo usuário da Internet ou se é muito “pequeno” para ter qualquer impacto real). ‘importância);
- Um atributo “CreationDate” registra a data em que um link foi descoberto pela primeira vez e a última data conhecida em que esse link foi encontrado. Um link que estivesse presente há muito tempo, portanto, poderia ter mais peso.
Indexação
Também há muita informação sobre indexação. Não é novo encontrar o “PagerankScore”, que portanto determina a “popularidade” de uma URL.
Uma representação visual do PageRank, que transmite popularidade entre páginas por meio de links.
Mas também encontramos outros dados interessantes sobre cada URL:
- O “PriorSignal” fornece informações sobre o histórico da URL (teoricamente, se a página fosse “ruim” antes, o Google pode não querer voltar a ela);
- O URLHistory detalha o fato de que o Google lembra das últimas 20 alterações em uma URL. É muito difícil saber em que medida cada versão antiga é usada ou não na indexação. No entanto, podemos supor que poderia impactar a última em caso de alterações excessivas na mesma URL (por exemplo, reutilizando nomes de domínio expirados e modificando-os demais ou muito rapidamente).
Conteúdo, entidades e autores
Quanto ao conteúdo em si, encontramos muitas informações sobre sua análise.
Existe o conceito de “SalientTermSet”, que lista o peso dos tópicos abordados por uma URL (na forma de unigrama e bigrama).
Para um mecanismo de pesquisa, remover o “ruído” para destacar os principais tópicos no conteúdo faz sentido. Mas o que o detalhe do “SalientTermSet” nos diz é que o Google destacaria os tópicos do conteúdo com base em termos únicos ou dois termos associados entre si.
Por exemplo, poderíamos ter o tópico importante “SEO natural”, mas não “Google SEO natural”.
Também encontramos outros aspectos interessantes relacionados a entidades e autores:
- O atributo WebRefEntities é usado tanto na indexação quanto para fornecer resultados ao usuário da Internet e determina as entidades nomeadas de um documento (uma marca, uma pessoa, um local, uma data, etc.). Isso demonstraria a importância de saber usá-los, um pouco como a excelente ferramenta YourTextGuru aconselha;
- Várias partes desses documentos de SEO também falam sobre autores, o que sugere que o Google tenta sistematicamente atribuir um autor a cada conteúdo indexado, sem dúvida com o objetivo de medir a qualidade ou a relevância. Além disso, encontramos outros campos de “autor” mais precisos, por exemplo, campos vinculados a conversas de blog ou fórum (incluindo o atributo AuthorName em “BlogsearchConversationNode”).
Nomes de domínio
Também há várias coisas interessantes sobre nomes de domínio aqui.
Primeiro, há um atributo “hostAge” para cada conteúdo, que indica a data em que o Google descobriu pela primeira vez o conteúdo no domínio em questão, o que permite separar melhor o spam em uma “sandbox”: ”
Esses dados são usados no twiddler para colocar novos spams na sandbox no momento do posicionamento.”. Em outras palavras, um site recente poderia ser descartado muito mais facilmente pelo Google durante a indexação.
Também há um atributo de qualidade chamado “SiteAuthority” que portanto julgaria a credibilidade de um site inteiro, ou seja, resemble uma classificação geral de qualidade dada a um nome de domínio. No entanto, o Google sempre afirmou que não há tal critério.
Finalmente, o fato de que o Google também pode descontinuar o “exact match domain” (EMD) também parece ser verdade com o atributo de qualidade “exact_match_domain_demotion”.
Lembre-se que um EMD é um nome de domínio que contém a palavra-chave principal, por exemplo, “jordan-not-fishing.com”. Novamente, é impossível saber em que medida essa desvalorização poderia ter impacto ou não.
O tema do site
Se falarmos sobre os assuntos abordados pelo conteúdo, há algumas verdadeiras jóias nesses documentos do Google.
Em particular, há um atributo “siteFocusScore” que determina em que medida um site é especializado em um domínio e, em seguida, um atributo SiteRadius que determina para cada conteúdo a distância desse primeiro escore.
Em outras palavras, isso poderia significar que o conteúdo que está muito longe do tópico de um site especializado poderia ser considerado menos qualitativo.
Essa também é uma observação que tivemos com os prospectos da agência: eles expandiram seus tópicos e infelizmente viram seu tráfego cair.
Também vemos nesses documentos que certos tópicos podem ter partes do algoritmo dedicadas a eles, por exemplo, com:
- Saúde (“ymylHealthScore”);
- Notícias (“ymylNewsScore”);
- Ciência (“ScienceCitationAuthor”);
- etc.
Isso, portanto, confirma o que vemos em nosso trabalho sobre referenciamento natural: as mesmas ações não sempre têm o mesmo impacto, dependendo do tema do site.
As fontes
Há centenas e centenas de páginas nesses documentos, portanto, ainda há muito trabalho a ser feito pela comunidade de SEO para desvendar tudo isso.
Enquanto isso, para aqueles que querem ir mais longe, aqui estão alguns links interessantes:
- O artigo em que Rand Fiskin analisa parte dessa fuga de dados enquanto fornece o nome do SEO que o descobriu (Erffan Azimi): https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/
- Um dos primeiros artigos a revelar e analisar essa fuga de dados: https://ipullrank.com/google-algo-leak ;
- Documentos completos: https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html ;
- Aqui está outra classificação do vazamento de dados em um arquivo do Excel com o ChatGPT.
Mais de 2500 módulos para ler e se divertir com SEO… Screenshot dos dados vazados do Google
O que é engraçado nessa história é que esse vazamento já havia sido descoberto por outro SEO, DejanSEO, mas ele manteve isso para si e avisou as equipes do Google.
Quais conclusões de SEO podemos tirar disso?
E agora, o que fazemos com isso?
Não muito, na verdade.
Minha opinião pessoal é que isso causou muita tinta a ser derramada, embora mude pouco nas recomendações que podemos atualmente fazer (pelo menos aquelas que damos a nossos clientes).
No entanto, aqui estão as lições que podemos tirar e especialmente aquelas que podemos confirmar:
- Certain SEO actions will have a long-term impact. For example, user clicks and Navboost are measured over 13 months. This means that an improvement at a certain point in time may not be felt immediately;
- Google uses named entities: you must therefore work carefully on the subjects you cover in each piece of content and you must highlight your brand and the author in each publication;
- To encourage “long clicks” (an internet user who clicks on your result and stays on your site), you must optimize and have real continuity between:
- the internet user’s search (and their needs);
- the goals of your content (title tag and meta description tag);
- the final content itself;
- And the ergonomics of your site;
- In general, on a given site, you should avoid spreading yourself too thinly with too many different themes;
- Google keeps a history of changes to the content: ideally, you should avoid too many drastic changes. In the case of a domain name repurchase, for example, this would confirm a good practice which consists of first putting the site back online in an identical form, before gradually modifying it;
- The response to the different needs of the Internet user seems to be, as it has been for many years, a determining element. So nothing changes;
- A link obtained a long time ago in the content would carry more weight than a link added later;
- When launching a new site, to avoid the “sandbox”, theoretically, you should go slowly (little, but quality content), before increasing the pace of publications;
- It also seems that we should avoid “exact match domain” names, as they would have a basic penalty.