Semalt: um super guia para bloquear spam de referenciadores no seu Google Analytics

Nik Chaykovskiy, especialista da Semalt , garante que o spam de referência é um dos problemas que os webmasters atualmente enfrentam. A situação piorou ao longo dos anos, o que significa que alguém em algum lugar ganha muito dinheiro criando spam de referência.

Spam de fantasma e referência

O spam agora chegou aos relatórios do Google Analytics. Os spammers procuram vulnerabilidades no sistema para que possam aparecer nos relatórios de dados do site. Eles fazem isso com a esperança de despertar curiosidade suficiente a ponto de o webmaster visitar seu site para ver por que eles estão no relatório. O problema é que eles não aumentam o tráfego. Eles nem conseguem, pois são bots. Eles usam o código de rastreamento JavaScrip usado pelo Google Analytics para criar uma notificação de que houve uma visita. Eles acabam distorcendo estatísticas vitais, como taxas de rejeição e outros elementos usados para analisar o engajamento. É imprescindível bloquear o spam de referência se precisar de dados precisos, especialmente se eles dependem deles para tomar decisões de marketing.

Torna-se difícil bloquear o spam de referência, especialmente porque os remetentes de spam trabalham muito rápido, aumentando a taxa de ocorrências de spam e as fontes. Isso significa que os webmasters precisam melhorar o esforço que fazem para eliminar e colocar na lista negra essas fontes. É particularmente problemático para as pessoas que têm novos sites que não recebem muito tráfego legítimo. Um aumento nas taxas de spam nesses sites apresentaria mais assimetria, que pode até ser maior do que as ocorrências diárias que recebe.

Quão fácil é?

Uma página carrega registros como uma única visita. Os spammers fantasmas usam o código de rastreamento do Google Analytics e enviam dados de tráfego diretamente para os relatórios, forjando uma visita. Pode demorar 0,001 segundos para carregar uma única página em um servidor em algum lugar. No entanto, eles podem ter forçado mais de 100 dessas visitas forjadas às contas do Google de muitos outros sites em todo o mundo. É muito fácil comprar um único host. Desde que os spammers tenham certeza do ROI, há muitos danos que eles podem causar com eles.

Soluções que surgem brevemente

Algumas técnicas são às vezes tão avançadas que as soluções empregadas para bloquear o spam de referência não funcionam. Um deles é o misterioso serviço online chamado Darodar. Os métodos a seguir não o limparam do GA.

  • O arquivo .htaccess. Não funciona, pois o spam fantasma não toca no site
  • A lista de exclusão de referências. Falta atualizações.
  • Filtros de exclusão. É um método desatualizado, pois se concentra apenas no spam futuro e não é retroativo para bancos de dados de spam anteriores.

O filtro de exclusão quase chegou a eliminar o spam de referência do Darodar. Sua única limitação era que ele não possui uma lista constante e consistente de spammers de referências atualizadas.

A peça que faltava no quebra-cabeça

Uma solução acionável para identificar e bloquear dados de referência e fantasmas deve ser muito atualizada, proveniente de um banco de dados mais amplo e retroativa a informações passadas. Com base nos três elementos para uma solução ideal, aqui está um que funciona.

Etapa 1: usando segmentos para excluir spam

É melhor usar segmentos, pois eles não alteram os dados permanentemente. Se alguém acidentalmente filtra referenciadores reais enquanto estiver usando filtros, não há como recuperá-los. É possível criar dados antigos usando segmentos, apesar do tempo que eles estão lá. Pode-se também aplicá-los retroativamente.

Etapa 2: Manutenção da lista de exclusão

O Slack é uma ferramenta que os webmasters podem usar para monitorar fontes de referência. Ele notifica o usuário sobre novas referências e fornece a ele um prompt: se coloca na lista de permissões ou na lista negra uma fonte de referência suspeita.

1. O Slack recebe todas as referências e

2. Ele usa um PHP para classificar todos os resultados por ordem de contagem e, em seguida, faz o loop da lista final para o webmaster para ver se algum parece familiar. Se não,

3. Encaminha todo o spam suspeito para um canal frouxo que oferece ao usuário uma escolha entre uma lista branca ou uma lista negra. Qualquer que seja a opção escolhida, ela leva à etapa 4,

4. Ele redireciona para uma página que verifica o veredicto como uma confirmação de seleção.

5. O Slack armazena e bloqueia todos os spammers identificados no banco de dados

6. A exibição final dos dados limpos estará no formato regex. Copie e cole no Google Analytics.

O Slack permite que os webmasters atualizem a lista de exclusão pelo menos cinco vezes por dia.

Na realidade, várias soluções podem funcionar:

Apesar de ser um método comprovado, funcionaria ainda melhor se o webmaster o suplementasse com outras técnicas, apenas para garantir que elas abranjam todas as bases. Além da referida solução:

  • Clique na caixa de seleção que solicita ao Google Analytics para excluir bots e aranhas conhecidas,
  • Aplique um "incluir filtro de nome de host"
  • Use cookies

O filtro inclusivo mencionado acima às vezes é eficiente, mas não é a melhor solução a longo prazo, porque:

  • A falsificação de nomes de host não é difícil, e os spammers de análise estão cada vez mais usando-a como vulnerável.
  • Se a configuração estiver incorreta, pode acabar filtrando os referenciadores reais.

mass gmail