CCBot - это веб-сканер компании Common Crawl созданный на основе Nutch, использующий проект Apache Hadoop.
Бот идентифицирует себя с помощью следующей строки User-Agent: CCBot/1.0.
Бот соблюдает директивы robots.txt - Crawl-Delay, Disallow и Allow. Поддержите метатег NOFOLLOW.
Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу.