50 najlepszych darmowych zbiorów danych do uczenia maszynowego | Lionbridge AI

Ten artykuł jest również dostępny w języku japońskim i chińskim uproszczonym.

Lionbridge AI zgromadziło bogactwo zasobów do uczenia maszynowego i przetwarzania języka naturalnego. W naszych poprzednich artykułach wyjaśniliśmy, dlaczego zbiory danych są tak integralną częścią uczenia maszynowego i przetwarzania języka naturalnego. Bez zbiorów danych szkoleniowych algorytmy uczenia maszynowego nie miałyby możliwości nauczenia się, jak przeprowadzać eksplorację tekstu, klasyfikację tekstu lub kategoryzację produktów.

Ten artykuł jest ostateczną listą otwartych zbiorów danych dla uczenia maszynowego. Począwszy od ogromnych (patrząc na ciebie, Kaggle) do bardzo specyficznych, takich jak wiadomości finansowe lub zbiory danych produktów Amazon.

Po pierwsze, kilka szybkich wskazówek, o których należy pamiętać podczas wyszukiwania zbiorów danych:

Szukaj czystych zbiorów danych, ponieważ nie chcesz tracić czasu na samodzielne czyszczenie danych.
Szukaj zbiorów danych bez zbyt wielu wierszy i kolumn, ponieważ są one łatwiejsze do pracy.
Powinno istnieć interesujące pytanie, na które można odpowiedzieć za pomocą zbioru danych.

Open Dataset Finders

Gdzie mogę pobrać darmowe, otwarte zbiory danych do uczenia maszynowego?

Najlepszym sposobem nauki uczenia maszynowego jest ćwiczenie z różnymi projektami. Możesz wyszukiwać i pobierać darmowe zbiory danych online za pomocą tych głównych wyszukiwarek zbiorów danych.

Kaggle: Witryna nauki o danych, która zawiera różne zewnętrznie przekazane interesujące zbiory danych. Na liście głównej można znaleźć wszelkiego rodzaju niszowe zbiory danych, od ocen ramenu po dane dotyczące koszykówki, a nawet licencje zwierząt domowych z Seattle.

Repozytorium UCI Machine Learning: Jedno z najstarszych źródeł zbiorów danych w sieci i świetny pierwszy przystanek przy poszukiwaniu interesujących zbiorów danych. Chociaż zestawy danych są tworzone przez użytkowników, a zatem mają różny poziom czystości, większość z nich jest czysta. Możesz pobrać dane bezpośrednio z repozytorium UCI Machine Learning, bez rejestracji.

Public Government Datasets for Machine Learning

Gdzie mogę pobrać publiczne rządowe zbiory danych do uczenia maszynowego?

Dane demograficzne są potężnym narzędziem do ulepszania rządu i społeczeństwa, służąc jako podstawa do podejmowania ważnych decyzji ekonomicznych. Modele uczenia maszynowego, które zostały wytrenowane przy użyciu publicznych danych rządowych, mogą pomóc decydentom w identyfikacji trendów i przygotowaniu się na kwestie związane ze spadkiem lub wzrostem populacji, starzeniem się i migracją.

Data.gov: Ta strona umożliwia pobieranie danych z wielu amerykańskich agencji rządowych. Dane mogą obejmować od budżetów rządowych do wyników szkolnych. Ostrzegamy jednak: wiele z tych danych wymaga dodatkowych badań.

EU Open Data Portal: Portal otwartych danych UE zapewnia dostęp do otwartych danych publikowanych przez instytucje UE w dziedzinach tak różnych jak ekonomia, zatrudnienie, nauka, środowisko i edukacja.

School System Finances: Ten zbiór danych został opracowany w wyniku badania finansów systemów szkolnych w USA.

Dane dotyczące opieki zdrowotnej w USA: Dane o zdrowiu populacji, chorobach, lekach i planach zdrowotnych zostały zebrane z bazy danych leków FDA i bazy danych składu żywności USDA w tym zbiorze danych.

The US National Center for Education Statistics: Ta strona gości dane dotyczące instytucji edukacyjnych i demografii edukacji z USA i na całym świecie.

The UK Data Service: Największy w Wielkiej Brytanii zbiór danych społecznych, ekonomicznych i populacyjnych można znaleźć tutaj.

Data USA: Ta witryna ma kompleksową wizualizację danych publicznych USA.

Finanse &Ekonomia Datasets for Machine Learning

Gdzie mogę pobrać finanse i ekonomię datasets for machine learning?

Uczenie maszynowe okazuje się być złotą szansą dla sektora finansowego. Finansowe zapisy ilościowe są przechowywane przez dziesięciolecia, więc branża ta doskonale nadaje się do uczenia maszynowego. W rzeczywistości, uczenie maszynowe już przekształca finanse i bankowość inwestycyjną w zakresie handlu algorytmicznego, przewidywań giełdowych i wykrywania oszustw. W ekonomii uczenie maszynowe może być wykorzystywane do testowania modeli ekonomicznych i przewidywania zachowań obywateli.

Quandl: Dobre źródło danych ekonomicznych i finansowych – przydatne do budowania modeli przewidywania wskaźników ekonomicznych lub cen akcji.

World Bank Open Data: Zbiory danych obejmujące dane demograficzne ludności oraz ogromną liczbę wskaźników ekonomicznych i rozwojowych z całego świata.

IMF Data: Międzynarodowy Fundusz Walutowy publikuje dane dotyczące finansów międzynarodowych, stóp zadłużenia, rezerw walutowych, cen towarów i inwestycji.

Financial Times Market Data: Aktualne informacje na temat rynków finansowych z całego świata, w tym indeksów cen akcji, towarów i walut.

Google Trends: Zbadaj i przeanalizuj dane dotyczące aktywności wyszukiwania w Internecie i trendów w wiadomościach na całym świecie.

American Economic Association (AEA): Dobre źródło do znalezienia danych makroekonomicznych USA.

Zbiory danych obrazowych dla wizji komputerowej

Gdzie mogę pobrać zbiory danych obrazowych dla wizji komputerowej?

Zbiory danych obrazów są przydatne do szkolenia szerokiej gamy aplikacji wizji komputerowej, takich jak technologia obrazowania medycznego, pojazdy autonomiczne i rozpoznawanie twarzy.

Labelme: Duży zbiór danych obrazów z adnotacjami.

ImageNet: De-facto zbiór danych obrazów dla nowych algorytmów. Jest zorganizowany zgodnie z hierarchią WordNet, w której każdy węzeł hierarchii jest przedstawiony za pomocą setek i tysięcy obrazów.

LSUN: Rozumienie sceny z wieloma zadaniami pomocniczymi (szacowanie rozkładu pomieszczeń, przewidywanie słoności, itp.)

MS COCO: Ogólne rozumienie obrazów i podpisywanie.

COIL100 : 100 różnych obiektów obrazowanych pod każdym kątem w obrocie o 360.

Visual Genome: Bardzo szczegółowa baza wiedzy wizualnej z podpisami ~100K obrazów.

Google’s Open Images: Zbiór 9 milionów adresów URL do obrazów, „które zostały opatrzone etykietami obejmującymi ponad 6000 kategorii” w ramach Creative Commons.

Labelled Faces in the Wild: 13 000 opatrzonych etykietami obrazów ludzkich twarzy, do wykorzystania przy opracowywaniu aplikacji wymagających rozpoznawania twarzy.

Stanford Dogs Dataset: Zawiera 20 580 obrazów i 120 różnych kategorii ras psów.

Indoor Scene Recognition: Bardzo specyficzny zbiór danych, przydatny, ponieważ większość modeli rozpoznawania scen jest lepsza „na zewnątrz”. Zawiera 67 kategorii wnętrz i w sumie 15620 obrazów.

VisualQA: Ten zbiór danych zawiera pytania otwarte odnoszące się do 265 016 obrazów. Zadawane pytania wymagają zrozumienia wizji i języka, aby na nie odpowiedzieć.

Sentiment Analysis Datasets for Machine Learning

Gdzie mogę pobrać sentiment analysis datasets for machine learning?

Modele analizy sentymentu wymagają dużych, wyspecjalizowanych zbiorów danych, aby uczyć się efektywnie. Poniższa lista powinna podpowiedzieć Ci kilka z nieskończonych sposobów, na jakie możesz ulepszyć swój algorytm analizy sentymentu.

Multidomain Sentiment Analysis Dataset: Nieco starszy zbiór danych, który zawiera recenzje produktów z Amazon.

IMDB Reviews: Starszy, stosunkowo mały zbiór danych do binarnej klasyfikacji sentymentu, zawiera 25 000 recenzji filmów.

Stanford Sentiment Treebank: Standardowy zbiór danych sentymentu z adnotacjami sentymentu.

Sentiment140: Popularny zbiór danych, który wykorzystuje 160 000 tweetów ze wstępnie usuniętymi emotikonami.

Twitter US Airline Sentiment: Dane z Twittera dotyczące amerykańskich linii lotniczych z lutego 2015 roku, sklasyfikowane jako pozytywne, negatywne i neutralne tweety.

Natural Language Processing Datasets

Gdzie mogę pobrać otwarte zbiory danych do przetwarzania języka naturalnego?

Przetwarzanie języka naturalnego to ogromny obszar badań, ale poniższa lista zawiera szeroki zakres zbiorów danych dla różnych zadań przetwarzania języka naturalnego, takich jak rozpoznawanie głosu i chatboty.

Enron Dataset: Dane e-mail z wyższego kierownictwa firmy Enron, zorganizowane w foldery.

Amazon Reviews: Zawiera około 35 milionów recenzji z Amazon obejmujących 18 lat. Dane zawierają informacje o produkcie i użytkowniku, oceny i tekst recenzji.

Google Books Ngrams: Zbiór słów z książek Google.

Blogger Corpus: Zbiór 681 288 wpisów blogowych zebranych z blogger.com. Każdy blog zawiera minimum 200 wystąpień powszechnie używanych angielskich słów.

Wikipedia Links Data: Pełny tekst Wikipedii. Zbiór danych zawiera prawie 1,9 miliarda słów z ponad 4 milionów artykułów. Można wyszukiwać według słów, fraz lub części akapitu.

Lista ebooków Gutenberga: Adnotowana lista ebooków z Project Gutenberg.

Hansards Text Chunks from the Canadian Parliament: 1,3 miliona par tekstów z zapisów 36-go Parlamentu Kanadyjskiego.

Jeopardy: Archiwum ponad 200 000 pytań z teleturnieju Jeopardy.

SMS Spam Collection in English: Zbiór danych, który składa się z 5 574 angielskich wiadomości SMS spam.

Yelp Reviews: Otwarty zbiór danych udostępniony przez Yelp, zawiera ponad 5 milionów recenzji.

UCI’s Spambase: Duży zbiór danych spamu e-mail, przydatny do filtrowania spamu.

Datasets for Autonomous Vehicles

Gdzie mogę pobrać otwarte zbiory danych do szkolenia pojazdów autonomicznych?

Pojazdy autonomiczne muszą być szkolone przy użyciu dużej ilości wysokiej jakości zbiorów danych, aby mogły dokładnie postrzegać swoje środowisko i otaczające je obiekty.

Berkeley DeepDrive BDD100k: Obecnie największy zbiór danych dla samokierującej się AI. Zawiera ponad 100 000 filmów z ponad 1100 godzin jazdy w różnych porach dnia i warunkach pogodowych. Obrazy z adnotacjami pochodzą z obszarów Nowego Jorku i San Francisco.

Baidu Apolloscapes: Duży zbiór danych obrazów, który definiuje 26 różnych pozycji semantycznych, takich jak samochody, rowery, piesi, budynki, światła uliczne itp.

Comma.ai: Ponad 7 godzin jazdy autostradą. Szczegóły obejmują prędkość samochodu, przyspieszenie, kąt skrętu kierownicy i współrzędne GPS.

Oxford’s Robotic Car: Ponad 100 powtórzeń tej samej trasy przez Oxford, UK, uchwyconych w okresie jednego roku. Zbiór danych rejestruje różne kombinacje pogody, ruchu drogowego i pieszego, wraz z długoterminowymi zmianami, takimi jak budowa i roboty drogowe.

Cityscape Dataset: Duży zbiór danych, który rejestruje miejskie sceny uliczne w 50 różnych miastach.

KUL Belgium Traffic Sign Dataset: Ponad 10000+ adnotacji znaków drogowych z tysięcy fizycznie odrębnych znaków drogowych w regionie Flandrii w Belgii.

MIT AGE Lab: Próbka ponad 1000 godzin zbiorów danych dotyczących jazdy z wykorzystaniem wielu czujników zebranych w AgeLab.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Ten zbiór danych obejmuje znaki drogowe, wykrywanie pojazdów, sygnalizację świetlną i wzorce trajektorii.

Pięćdziesiąt najlepszych darmowych zbiorów danych do uczenia maszynowego