Альтернативы и возможности помимо Kaggle

Kaggle — самая известная платформа для соревнований, на которой до сих пор проводились сотни соревнований.

Kaggle предложил многим своим участникам возможность создать собственную компанию, запустить программное обеспечение и пакеты для машинного обучения, получить интервью в журналах, организовать курс на Coursera, написать книги по машинному обучению и многое другое. важно, чтобы узнать больше о навыках и технических особенностях науки о данных.

Однако многие соревнования по данным проводятся на частных платформах или на других платформах для соревнований.

В этой статье мы кратко представим Kaggle и многие другие платформы для соревнований.

Представляем соревнования по науке о данных

Соревновательное программирование началось в 1970-х годах с первых выпусков ICPC, Международного студенческого соревнования по программированию.

ICPC — это соревнование по алгоритмическому программированию для студентов колледжей с командами из трех человек, представляющих свой университет, которые работают над решением самых реальных задач.

После ICPC соревнования по программированию процветали, особенно после 2000 г.,
когда удаленное участие стало более доступным, что позволило более легко и с меньшими затратами проводить международные
соревнования.

Формат похож и просто одинаков для большинства этих соревнований: есть ряд задач, и вы должны написать решение для их решения. Победители могут затем получить приз, а также заявить о себе рекрутинговым компаниям или просто стать известными и популярными среди своих сверстников.

В последнее время также успешно возникли проблемы, связанные с искусственным интеллектом, в частности, после запуска Кубка KDD, конкурса по обнаружению знаний и интеллектуальному анализу данных, проводимого Специальной группой по интересам (SIG) Ассоциации вычислительной техники (ACM). и интеллектуальный анализ данных во время ежегодной конференции.

Со стороны правительства можно привести DARPA Grand Challenge и его многочисленные соревнования по самоуправляемым автомобилям, роботизированным операциям, машинному переводу, идентификации говорящего, распознаванию отпечатков пальцев, поиску информации, OCR, автоматическому распознаванию целей и многим другим.

С точки зрения бизнеса можно привести пример такой компании, как Netflix, которая доверила конкурс, чтобы улучшить свой алгоритм прогнозирования выбора фильмов пользователями.

Главный приз в размере 1 000 000 долларов США должен был быть назначен только в том случае, если решение могло бы улучшить существующий алгоритм Netflix, Cinematch, выше определенного порога.

Каггл

Другие компании, кроме Netflix, действительно выиграли от соревнований по науке о данных. Многие из этих соревнований проводились на платформе соревнований Kaggle.

Kaggle сделал свои первые шаги в феврале 2010 года благодаря идее Энтони Голдблума создать платформу для соревнований, которая могла бы привлечь лучших экспертов-аналитиков для решения интересных задач машинного обучения.

Соревнования Kaggle привлекали все больше и больше внимания со стороны более широкой
аудитории, и даже Джеффри Хинтон, крестный отец глубокого обучения, участвовал (и побеждал) в конкурсе Kaggle, организованном Merck в 2012 году.

Kaggle также был платформой, на которой Франсуа Шолле запустил свой пакет глубокого обучения Keras во время Классификации продуктов Otto Group, а Тяньци Чен запустил XGBoost, более быструю и точную версию машин повышения градиента, в Вызов машинного обучения бозона Хиггса. » .

Конкуренция за конкуренцией: сообщество, вращающееся вокруг Kaggle, выросло
до одного миллиона в 2017 году, в том же году, когда во время своего выступления на Google Next Фей-Фей Ли, главный научный сотрудник Google, объявила, что Google Alphabet
собирался приобрести Kaggle. С тех пор Kaggle стал частью Google.

Другие площадки для соревнований

Многие другие соревнования по данным проводятся на частных платформах или на других платформах для соревнований, и все они в основном работают по схожим принципам, а преимущества для участников более или менее такие же, как у Kaggle.

Кратко представим некоторые из них:

  • Управляемые данные

DrivenData — это краудсорсинговая конкурсная платформа, посвященная социальным вызовам.

Сама компания является социальным предприятием, целью которого является предоставление решений в области науки о данных, благодаря специалистам по данным, создающим алгоритмы для общественного блага, организациям, решающим самые большие мировые проблемы.

Например, вы можете прочитать в этой статье, как Facebook выбрал DrivenData для своего конкурса по построению моделей против разжигания ненависти и дезинформации.

  • Числа

Numerai — это основанный на искусственном интеллекте краудсорсинговый хедж-фонд, базирующийся в Сан-Франциско, который проводит еженедельный турнир, в котором вы можете представить свои прогнозы на основе запутанных данных хедж-фонда и заработать свои призы в криптовалюте компании Numeraire.

  • Аналитика Vidhya

Analytics Vidhya — крупнейшее индийское сообщество по науке о данных, предлагает платформу для хакатонов по науке о данных.

  • КраудАналитикс

CrowdAnalytix — это платформа, которая недавно использовалась для проведения довольно сложных соревнований, как вы можете прочитать из этой средней записи в блоге:

Также блог сообщества довольно интересен тем, что дает представление о том, какие проблемы вы можете найти на этой платформе.

  • Подписать

Signate — японская платформа для проведения соревнований по науке о данных. Он довольно богат конкурсами и предлагает систему рейтинга, аналогичную системе Kaggle.

  • Зинди

Zindi — платформа для соревнований по науке о данных из Африки. Здесь проводятся соревнования, направленные на решение наиболее острых социальных, экономических и экологических проблем Африки.

  • Облако Alibaba

Alibaba Cloud — китайский поставщик облачных компьютеров и искусственного интеллекта, который запустил академические соревнования Tianchi, сотрудничает с академическими конференциями, такими как SIGKDD, IJCAI-PRICAI и CVPR, и предлагает такие задачи, как поиск 3D-формы на основе изображений, реконструкция 3D-объекта или пример. сегментация.

  • КодаЛаб

Вместо этого CodaLab представляет собой французскую платформу для проведения соревнований по науке о данных, созданную как совместное предприятие Microsoft и Стэнфордского университета в 2013 году. Они имеют аналогичную функцию ядра для обмена знаниями и воспроизводимого моделирования, что и Kaggle.

Другие второстепенные платформы:

  • CrowdAI от Федеральной политехнической школы Лозанны в Швейцарии;
  • InnoCentive;
  • Grand-Challenge для биомедицинской визуализации;
  • OpenML.

Вы всегда можете найти список многих действующих крупных конкурсов в российском сообществе Open Data Science и, таким образом, время от времени открывать для себя даже новые конкурсные площадки.

Заключение

Альтернатив и возможностей помимо Kaggle достаточно много.

Интересным аспектом такого изобилия возможностей является то, что вы можете легче найти соревнование, которое могло бы вас больше заинтересовать из-за его
специализации и данных.

Кроме того, ожидайте меньшего конкурентного давления на эти проблемы, поскольку они менее известны и рекламируются. И ожидайте меньшего обмена информацией между участниками, поскольку ни одна другая платформа для соревнований до сих пор не достигла такого же богатства обмена и сетевых инструментов, как Kaggle.

Это все для этой статьи, спасибо за чтение! Вы можете связаться со мной в LinkedIn, используя следующую ссылку:

Ссылки

  • Банашевич, К.; Массарон, Л.; Анализ данных и машинное обучение с Kaggle, Packt Publishing, 2021.