OpenAI está permitindo agora bloquear o seu rastreador web de extração de dados a fim de auxiliar na formação de modelos GPT.
A OpenAI afirmou que os administradores do website podem desativar ou desbloquear o rastreador GPTBot em arquivos .txt ou IPs. Eles postaram em seu blog que as páginas monitoradas com o GPTBot agente do usuário podem potencialmente ser usadas para o aprimoramento de modelos futuros, excluindo as fontes que exigem acesso ao paywall, estão ligadas à coleta de informações pessoalmente identificáveis (PII) ou têm texto que viole suas políticas. Para sites que não são descartados por estes motivos, permitir ao GPTBot acesso ao seu website contribuirá para a precisão dos modelos AI e melhorará suas capacidades e segurança gerais.
Desativando o GPT Bot é uma primeira etapa da OpenAI que permitirá que os usuários da internet escolham não terem seus dados utilizados para alimentar seus grandes modelos de linguagem. Alguns esforços foram feitos para criar uma identificação que excluiria o conteúdo de treinamento, como a tag “NoAI” criada pela DeviantArt no ano passado. No entanto, essa etiqueta não elimina conteúdos previamente raspados do ChatGPT para uso de treinamento.
A internet forneceu grande parte dos dados de treinamento para grandes modelos de idiomas, como os modelos GPT da OpenAI e o Bard do Google. No entanto, o OpenAI não confirmará se obteve seus dados através de postagens de mídia social, obras protegidas por direitos autorais, ou que partes da internet raspou para informações. E o fornecimento de dados para o treinamento de IA tornou-se cada vez mais contencioso. Sites, incluindo Reddit e Twitter, empurraram para quebrar o uso gratuito de seus posts de usuários por empresas de IA, enquanto autores e outros criativos processaram sobre o uso não autorizado de suas obras. Lawmakers também se envolveu em questões de privacidade de dados e consentimento em várias audiências do Senado em torno da regulação AI no mês passado.
De acordo com a notícia da Axios, a Adobe e outras empresas AI cogitaram a ideia de aplicar uma lei anti-impessoal para marcar dados como não-utilizáveis para treinamento. O acordo firmado pela Casa Branca com OpenAI e outras companhias AI lhes permitirá desenvolver um sistema de marca d’água para informar se algo foi fabricado pela Inteligência Artificial, mas não comprometeram-se em deixar de usar os dados da internet para treinamento.