OpenAI тайно запускает GPTBot: новый веб-краулер для обучения ИИ

Решение проблем общедоступных данных в моделях обучения, таких как GPT-4

OpenAI представила новый инструмент под названием GPTBot, который собирает информацию из Интернета, к которой может получить доступ каждый. Этот инструмент поможет обучать модели ИИ. Релиз происходит в то время, когда некоторые технологические компании обвиняются в том, что они берут информацию с веб-сайтов без явного запроса разрешения. Они использовали эту информацию для создания больших программ, таких как GPT-4.

Что такое поисковый робот (зачем он нужен OpenAI?)

Сканер или веб-сканер похож на робота, который бродит по Интернету, собирая информацию по мере продвижения. Для чего-то вроде поисковой системы Google краулер помогает составить список информации, чтобы помочь ответить на вопросы людей. Его также можно использовать для сохранения копий веб-страниц.

Существует файл robots.txt, который владельцы веб-сайтов могут использовать, чтобы сообщить поисковым роботам, какие части сайта они могут просматривать, или полностью скрыть их. Если поисковый робот не остановлен этим файлом, он может собирать информацию, которую любой может увидеть на веб-сайте.

Большим программам, таким как те, которые создает OpenAI, требуется много информации, чтобы давать правильные ответы на вопросы людей. Поисковые роботы — отличный способ получить эту информацию. Поисковый робот, такой как бот Common Crawl, пытается сделать копию Интернета, чтобы люди могли учиться и учиться.

Присоединяйтесь к Программе среднего членства всего за 5 долларов США, чтобы продолжать обучение без ограничений. Я получу небольшую часть вашего членского взноса, если вы перейдете по следующей ссылке, без каких-либо дополнительных затрат с вашей стороны.



GPTBot

GPTBot разработан, чтобы быть более открытым и честным. Это позволяет владельцам веб-сайтов узнать, что это такое, поэтому они могут разрешить или запретить это. Он делает это с помощью специального идентификационного тега под названием «GPTBot» и четкого сообщения о том, что это от OpenAI.