5 бесплатных источников наборов данных для использования в проектах по науке о данных

5 бесплатных источников данных для проектов по науке о данных

При работе над проектом, основанным на данных, надежные и высококачественные наборы данных являются необходимыми. К счастью, существует несколько бесплатных источников, предоставляющих доступ к широкому спектру наборов данных в различных областях.

Однако обратите внимание на качество данных, документацию и любые лицензионные ограничения, связанные с каждым набором данных. В этой статье будут рассмотрены пять источников бесплатных наборов данных, которые вы можете использовать для своего следующего проекта.

Kaggle

Kaggle – популярная платформа для ученых-данных и энтузиастов машинного обучения. Она предлагает огромный выбор открытых наборов данных, а также организует соревнования по машинному обучению. Базы данных охватывают широкий спектр предметных областей, включая социальные науки, здравоохранение и финансы. Сообщество Kaggle гарантирует регулярное обновление и поддержку наборов данных.

Новая толстовка Kaggle пришла как раз вовремя! @kaggle запустил очень интересное соревнование по крупному языковому моделированию, направленное на ответы на вопросы научного характера с использованием (крупных) языковых моделей. Я закончу перерыв на Kaggle для участия в этом. Это прекрасная задача для всех, кто хочет усилить свое обучение! pic.twitter.com/eMKeOnUBZ8

— Sanyam Bhutani (@bhutanisanyam1) 16 июля 2023 г.

Хранилище машинного обучения UCI

Хранилище машинного обучения UCI (University of California, Irvine) – это всесторонняя коллекция наборов данных, которые часто используются в сообществе машинного обучения. Оно предоставляет наборы данных для множества различных задач, таких как классификация, регрессия и кластеризация. Каждый набор данных в хранилище имеет подробное описание, список атрибутов и инструкции по предварительной обработке данных.

Связано: 9 идей проектов по науке о данных для начинающих

Поисковая система Google Dataset Search посвящена помощи пользователям в поиске общедоступных наборов данных. Она индексирует огромный выбор наборов данных из различных источников, таких как веб-сайты правительственных организаций, академические организации и репозитории данных. При поиске наборов данных доступны ключевые слова, фильтры по типу файла и лицензированию, соответствующая метаданные и ссылки для загрузки.

Команда разрабатывала систему обнаружения рака с использованием Tensorflow на хакатоне #Megahack. Была путаница с наборами данных, я посоветовал им использовать поиск наборов данных Google. #TensorFlow@JeffDean @ialimustufa @ericsk @ksoonson @DynamicWebPaige pic.twitter.com/EKmeQshcc2

— Shubham (@ishubhamsah) 29 января 2020 г.

Data.gov

Data.gov – официальный портал открытых данных правительства Соединенных Штатов. Он предоставляет доступ к огромной базе данных наборов данных от множества федеральных агентств по различным темам, включая здравоохранение, окружающую среду, образование, транспорт и многое другое. Наборы данных, доступные на Data.gov, часто используются для анализа, исследований и создания приложений, основанных на данных. Платформа способствует использованию общедоступных данных для блага и пропагандирует прозрачность.

Связано: 15 важных терминов в области данных, которые вам следует знать

OpenML

OpenML – платформа, которая способствует сотрудничеству и предлагает разнообразные наборы данных и задачи машинного обучения. Пользователи могут сравнивать и воспроизводить эксперименты машинного обучения, а также исследовать, загружать и пожертвовать наборы данных. OpenML способствует обмену наборами данных, кодом и результатами, подчеркивая важность воспроизводимости в исследованиях по машинному обучению.

We will continue to update BiLee; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more