5 бесплатных источников наборов данных для использования в проектах по науке о данных
5 бесплатных источников данных для проектов по науке о данных
При работе над проектом, основанным на данных, надежные и высококачественные наборы данных являются необходимыми. К счастью, существует несколько бесплатных источников, предоставляющих доступ к широкому спектру наборов данных в различных областях.
Однако обратите внимание на качество данных, документацию и любые лицензионные ограничения, связанные с каждым набором данных. В этой статье будут рассмотрены пять источников бесплатных наборов данных, которые вы можете использовать для своего следующего проекта.
Kaggle
Kaggle – популярная платформа для ученых-данных и энтузиастов машинного обучения. Она предлагает огромный выбор открытых наборов данных, а также организует соревнования по машинному обучению. Базы данных охватывают широкий спектр предметных областей, включая социальные науки, здравоохранение и финансы. Сообщество Kaggle гарантирует регулярное обновление и поддержку наборов данных.
Новая толстовка Kaggle пришла как раз вовремя! @kaggle запустил очень интересное соревнование по крупному языковому моделированию, направленное на ответы на вопросы научного характера с использованием (крупных) языковых моделей. Я закончу перерыв на Kaggle для участия в этом. Это прекрасная задача для всех, кто хочет усилить свое обучение! pic.twitter.com/eMKeOnUBZ8
- Бывший операционный директор FTX Констанс Ван присоединяется к крипто-фонду Sino Global
- Крипто-майнер Argo Blockchain собрал $7.5 млн. в продаже акций; акции падают.
- Баланс токенов 1Inch на централизованных биржах вырос до 65 миллионов долларов
— Sanyam Bhutani (@bhutanisanyam1) 16 июля 2023 г.
Хранилище машинного обучения UCI
Хранилище машинного обучения UCI (University of California, Irvine) – это всесторонняя коллекция наборов данных, которые часто используются в сообществе машинного обучения. Оно предоставляет наборы данных для множества различных задач, таких как классификация, регрессия и кластеризация. Каждый набор данных в хранилище имеет подробное описание, список атрибутов и инструкции по предварительной обработке данных.
Связано: 9 идей проектов по науке о данных для начинающих
Поиск наборов данных Google
Поисковая система Google Dataset Search посвящена помощи пользователям в поиске общедоступных наборов данных. Она индексирует огромный выбор наборов данных из различных источников, таких как веб-сайты правительственных организаций, академические организации и репозитории данных. При поиске наборов данных доступны ключевые слова, фильтры по типу файла и лицензированию, соответствующая метаданные и ссылки для загрузки.
Команда разрабатывала систему обнаружения рака с использованием Tensorflow на хакатоне #Megahack. Была путаница с наборами данных, я посоветовал им использовать поиск наборов данных Google. #TensorFlow@JeffDean @ialimustufa @ericsk @ksoonson @DynamicWebPaige pic.twitter.com/EKmeQshcc2
— Shubham (@ishubhamsah) 29 января 2020 г.
Data.gov
Data.gov – официальный портал открытых данных правительства Соединенных Штатов. Он предоставляет доступ к огромной базе данных наборов данных от множества федеральных агентств по различным темам, включая здравоохранение, окружающую среду, образование, транспорт и многое другое. Наборы данных, доступные на Data.gov, часто используются для анализа, исследований и создания приложений, основанных на данных. Платформа способствует использованию общедоступных данных для блага и пропагандирует прозрачность.
Связано: 15 важных терминов в области данных, которые вам следует знать
OpenML
OpenML – платформа, которая способствует сотрудничеству и предлагает разнообразные наборы данных и задачи машинного обучения. Пользователи могут сравнивать и воспроизводить эксперименты машинного обучения, а также исследовать, загружать и пожертвовать наборы данных. OpenML способствует обмену наборами данных, кодом и результатами, подчеркивая важность воспроизводимости в исследованиях по машинному обучению.
We will continue to update BiLee; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Социете Женераль стала первой компанией, получившей французскую лицензию на криптовалюту.
- Фьючерсы XRP установили рекорд высокого уровня открытых позиций на 2023 год
- Самый крупный протокол Solana, Marinade, делает ставку на рост с помощью ‘родного’ продукта по зачислению SOL
- BNB Chain сжигает почти $500 млн стоимости токенов BNB
- XRP проявляет свою мощь токен Ripple не обращает внимания на криптовалютную турбулентность и продолжает расти на 68%
- BNB Chain представляет обновление Beacon – какое это имеет значение для цены?
- Прогноз на Shiba Inu (SHIB) предстоящий рост цены на 24% к концу месяца.