Como impedir que os rastreadores do OpenAI raspem seu site

Como impedir que os rastreadores do OpenAI raspem seu site
Leitores como você ajudam a apoiar o MUO. Quando você faz uma compra usando links em nosso site, podemos ganhar uma comissão de afiliado. Consulte Mais informação.

Embora os usuários adorem o ChatGPT pela grande quantidade de informações que ele contém atualmente, o mesmo não pode ser dito sobre os proprietários de sites.





quantos shows tem o windows 10
MUO Vídeo do dia ROLE PARA CONTINUAR COM O CONTEÚDO

O ChatGPT da OpenAI usa rastreadores para raspar sites, mas se você é proprietário de um site e não deseja que o rastreador da OpenAI acesse seu site, aqui estão algumas coisas que você pode fazer para evitá-lo.





Como funciona o rastreamento OpenAI?

A rastreador da web (também conhecido como spider ou bot do mecanismo de pesquisa) é um programa automatizado que examina a Internet em busca de informações. Em seguida, ele compila essas informações de uma maneira fácil para o mecanismo de pesquisa acessá-las.





Os rastreadores da Web indexam todas as páginas de todos os URLs relevantes, geralmente com foco em sites mais relevantes para suas consultas de pesquisa. Por exemplo, suponhamos que você esteja pesquisando no Google um erro específico do Windows. O rastreador da Web em seu mecanismo de pesquisa verificará todas as URLs de sites que considera mais confiáveis ​​no tópico de erros do Windows.

O rastreador da Web do OpenAI é chamado GPTBot e, de acordo com Documentação do OpenAI , dar ao GPTBot acesso ao seu site pode ajudar a treinar o modelo de IA para se tornar mais seguro e preciso, e pode até ajudar a expandir os recursos do modelo de IA.



Como impedir que o OpenAI rastreie seu site

Como a maioria dos outros rastreadores da web, o GPTBot pode ser impedido de acessar seu site modificando o endereço do site. robots.txt (também conhecido como protocolo de exclusão de robôs). Esse arquivo .txt é hospedado no servidor do site e controla como os rastreadores da web e outros programas automatizados se comportam em seu site.

Aqui está uma pequena lista do que o robot.txt arquivo pode fazer:





  • Ele pode bloquear completamente o GPTBot de acessar o site.
  • Ele pode impedir que apenas determinadas páginas de uma URL sejam acessadas pelo GPTBot.
  • Ele pode dizer ao GPTBot quais links ele pode seguir e quais não pode.

Veja como controlar o que o GPTBot pode fazer em seu site:

Bloqueie completamente o GPTBot de acessar seu site

  1. Configure o arquivo robot.txt e edite-o com qualquer ferramenta de edição de texto.
  2. Adicione o GPTBot ao seu site robots.txt do seguinte modo:
 User-agent: GPTBot 
Disallow: /

Bloqueie apenas determinadas páginas de serem acessadas pelo GPTBot

  1. configurar o robot.txt arquivo e, em seguida, edite-o com sua ferramenta de edição de texto preferida.
  2. Adicione o GPTBot ao seu site robots.txt do seguinte modo:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

No entanto, lembre-se de que a alteração do robot.txt file não é uma solução retroativa e qualquer informação que o GPTBot já tenha coletado do seu site não será recuperável.





OpenAI permite que proprietários de sites optem por não rastrear

Desde que os rastreadores são usados ​​para treinar modelos de IA, os proprietários de sites procuram maneiras de manter seus dados privados.

Alguns temem que os modelos de IA estejam basicamente roubando seu trabalho, atribuindo até menos visitas ao site ao fato de que agora os usuários obtêm suas informações sem nunca ter que visitar seus sites.

Em suma, se você deseja bloquear completamente os chatbots de IA de escanear seus sites, é uma escolha totalmente sua.