The 50 Best Free Datasets for Machine Learning | Lionbridge AI

Dit artikel is ook beschikbaar in het Japans en Vereenvoudigd Chinees.

Lionbridge AI heeft een schat aan bronnen verzameld voor machine learning en natuurlijke taalverwerking. In onze vorige artikelen hebben we uitgelegd waarom datasets zo’n integraal onderdeel zijn van machine learning en natuurlijke taalverwerking. Zonder training datasets, zou machine-learning algoritmen geen manier hebben om te leren hoe text mining, tekstclassificatie, of het categoriseren van producten te doen.

Dit artikel is de ultieme lijst van open datasets voor machine learning. Ze variëren van de grote (op zoek naar u, Kaggle) aan de zeer specifieke, zoals financieel nieuws of Amazon product datasets.

Voreerst, een aantal snelle pointers in gedachten te houden bij het zoeken naar datasets:

Zoek naar schone datasets, want je wilt geen tijd verspillen aan het schoonmaken van de gegevens zelf.
Zoek naar datasets zonder al te veel rijen en kolommen, want die zijn makkelijker om mee te werken.
Er moet een interessante vraag zijn die met de dataset beantwoord kan worden.

Open Dataset Finders

Waar kan ik gratis, open datasets downloaden voor machine learning?

De beste manier om machine learning te leren is door te oefenen met verschillende projecten. U kunt online gratis datasets zoeken en downloaden met behulp van deze grote datasetzoekers.

Kaggle: Een data science site die een verscheidenheid aan extern bijgedragen interessante datasets bevat. U kunt allerlei niche-datasets vinden in de hoofdlijst, van ramen ratings tot basketbal gegevens tot en zelfs Seattle huisdier licenties.

UCI Machine Learning Repository: Een van de oudste bronnen van datasets op het web, en een geweldige eerste stop als je op zoek bent naar interessante datasets. Hoewel de datasets door gebruikers zijn bijgedragen, en dus verschillende niveaus van netheid hebben, is de overgrote meerderheid schoon. U kunt gegevens rechtstreeks downloaden van de UCI Machine Learning repository, zonder registratie.

Public Government Datasets for Machine Learning

Waar kan ik publieke overheidsdatasets downloaden voor machine learning?

Demografische gegevens zijn een krachtig hulpmiddel voor het verbeteren van de overheid en de samenleving, doordat ze als basis dienen voor belangrijke economische beslissingen. Machine learning-modellen die zijn getraind met behulp van overheidsgegevens kunnen beleidsmakers helpen trends te identificeren en zich voor te bereiden op kwesties die verband houden met bevolkingsafname of -groei, vergrijzing en migratie.

Data.gov: Deze site maakt het mogelijk om gegevens van meerdere Amerikaanse overheidsinstellingen te downloaden. De gegevens kunnen variëren van overheidsbegrotingen tot schoolprestatiescores. Maar wees gewaarschuwd: veel van de gegevens vereisen aanvullend onderzoek.

EU Open Data Portal: De EU Open Data Portal biedt toegang tot open gegevens gepubliceerd door EU-instellingen op gebieden zo divers als economie, werkgelegenheid, wetenschap, het milieu, en onderwijs.

School System Finances: Deze dataset is ontwikkeld aan de hand van een onderzoek naar de financiën van schoolsystemen in de VS.

Zorggegevens VS: Gegevens over de gezondheid van de bevolking, ziekten, geneesmiddelen en gezondheidsplannen zijn in deze dataset verzameld uit de geneesmiddelendatabase van de FDA en de voedselsamenstellingsdatabase van de USDA.

The US National Center for Education Statistics: Deze site host gegevens over onderwijsinstellingen en onderwijs demografie uit de VS en over de hele wereld.

The UK Data Service: De grootste verzameling sociale, economische en bevolkingsgegevens van het VK is hier te vinden.

Data USA: Deze site heeft een uitgebreide visualisatie van Amerikaanse overheidsgegevens.

Finance & Economics Datasets for Machine Learning

Waar kan ik finance en economics datasets voor machine learning downloaden?

Machine-leren blijkt een gouden kans voor de financiële sector. Financiële kwantitatieve gegevens worden decennialang bewaard, dus de sector is perfect geschikt voor machine learning. Machine learning transformeert de financiële sector en investeringsbanken al voor algoritmische handel, beursvoorspellingen en fraudedetectie. In de economie kan machine learning worden gebruikt om economische modellen te testen en het gedrag van burgers te voorspellen.

Quandl: een goede bron voor economische en financiële gegevens – nuttig voor het bouwen van modellen om economische indicatoren of aandelenkoersen te voorspellen.

Wereldbank Open Data: Datasets over bevolkingsdemografie en een enorm aantal economische en ontwikkelingsindicatoren van over de hele wereld.

IMF Data: Het Internationaal Monetair Fonds publiceert gegevens over internationale financiën, schuldpercentages, deviezenreserves, grondstofprijzen en investeringen.

Financial Times Market Data: Actuele informatie over financiële markten van over de hele wereld, waaronder aandelenkoersen, grondstoffen en buitenlandse valuta.

Google Trends: Onderzoek en analyseer gegevens over internet zoekactiviteit en trending nieuwsverhalen over de hele wereld.

American Economic Association (AEA): Een goede bron om Amerikaanse macro-economische gegevens te vinden.

Image Datasets for Computer Vision

Waar kan ik image datasets downloaden voor computer vision?

Datasets met afbeeldingen zijn nuttig voor het trainen van een breed scala aan computervisietoepassingen, zoals medische beeldvormingstechnologie, autonome voertuigen en gezichtsherkenning.

Labelme: Een grote dataset van geannoteerde afbeeldingen.

ImageNet: De de-facto beeld dataset voor nieuwe algoritmen. Is georganiseerd volgens de WordNet hiërarchie, waarin elke knoop van de hiërarchie wordt afgebeeld door honderden en duizenden afbeeldingen.

LSUN: Scene understanding met vele ondersteunende taken (room layout estimation, saliency prediction, etc.)

MS COCO: Generic image understanding and captioning.

COIL100 : 100 verschillende objecten afgebeeld onder elke hoek in een 360 rotatie.

Visual Genome: Zeer gedetailleerde visuele kennisbank met bijschriften van ~100K afbeeldingen.

Google’s Open Images: Een verzameling van 9 miljoen URL’s naar afbeeldingen “die zijn geannoteerd met labels verspreid over meer dan 6.000 categorieën” onder Creative Commons.

Labelled Faces in the Wild: 13.000 gelabelde afbeeldingen van menselijke gezichten, voor gebruik bij het ontwikkelen van toepassingen die gezichtsherkenning met zich meebrengen.

Stanford Dogs Dataset: Bevat 20.580 afbeeldingen en 120 verschillende hondenras categorieën.

Indoor Scene Recognition: Een zeer specifieke dataset, nuttig omdat de meeste scèneherkenningsmodellen beter ‘buiten’ zijn. Bevat 67 binnencategorieën, en een totaal van 15620 afbeeldingen.

VisualQA: Deze dataset bevat open vragen met betrekking tot 265.016 afbeeldingen. De gestelde vragen vereisen een begrip van visie en taal om te beantwoorden.

Sentiment Analysis Datasets for Machine Learning

Waar kan ik sentimentanalyse datasets downloaden voor machine learning?

Sentimentanalyse-modellen vereisen grote, gespecialiseerde datasets om effectief te leren. De volgende lijst moet een hint geven op enkele van de eindeloze manieren waarop u uw sentimentanalyse-algoritme kunt verbeteren.

Multidomein Sentimentanalyse Dataset: Een iets oudere dataset die productrecensies van Amazon bevat.

IMDB Reviews: Een oudere, relatief kleine dataset voor binaire sentimentclassificatie, beschikt over 25.000 filmrecensies.

Stanford Sentiment Treebank: Standaard sentiment dataset met sentiment annotaties.

Sentiment140: Een populaire dataset, die 160.000 tweets gebruikt met emoticons vooraf verwijderd.

Twitter US Airline Sentiment: Twitter-gegevens over Amerikaanse luchtvaartmaatschappijen uit februari 2015, ingedeeld in positieve, negatieve en neutrale tweets.

Natural Language Processing Datasets

Waar kan ik open datasets downloaden voor natuurlijke taalverwerking?

Natuurlijke taalverwerking is een enorm onderzoeksgebied, maar de volgende lijst bevat een breed scala aan datasets voor verschillende natuurlijke taalverwerkingstaken, zoals spraakherkenning en chatbots.

Enron Dataset: E-mailgegevens van het hogere management van Enron, georganiseerd in mappen.

Amazon Reviews: Bevat ongeveer 35 miljoen recensies van Amazon over een periode van 18 jaar. De gegevens omvatten product- en gebruikersinformatie, beoordelingen, en de platte tekst van de review.

Google Books Ngrams: Een verzameling woorden uit Google books.

Blogger Corpus: Een verzameling 681.288 blogberichten verzameld van blogger.com. Elke blog bevat een minimum van 200 voorkomens van veelgebruikte Engelse woorden.

Wikipedia Links Data: De volledige tekst van Wikipedia. De dataset bevat bijna 1,9 miljard woorden uit meer dan 4 miljoen artikelen. U kunt zoeken op woord, zinsdeel of deel van een paragraaf zelf.

Gutenberg eBooks List: Geannoteerde lijst van ebooks van Project Gutenberg.

Hansards Text Chunks from the Canadian Parliament: 1,3 miljoen paren teksten uit de verslagen van het 36e Canadese Parlement.

Jeopardy: Archief van meer dan 200.000 vragen uit de quizshow Jeopardy.

SMS Spam Collection in English: Een dataset die bestaat uit 5.574 Engelse SMS-spamberichten.

Yelp Reviews: Een open dataset vrijgegeven door Yelp, bevat meer dan 5 miljoen reviews.

UCI’s Spambase: Een grote spam e-mail dataset, nuttig voor spam filtering.

Datasets voor Autonome Voertuigen

Waar kan ik open datasets downloaden voor het trainen van autonome voertuigen?

Autonome voertuigen moeten worden getraind met grote hoeveelheden datasets van hoge kwaliteit, zodat ze hun omgeving en omringende objecten nauwkeurig kunnen waarnemen.

Berkeley DeepDrive BDD100k: momenteel de grootste dataset voor zelfrijdende AI. Bevat meer dan 100.000 video’s van meer dan 1.100 uur rijervaring op verschillende tijdstippen van de dag en onder verschillende weersomstandigheden. De geannoteerde beelden komen uit de gebieden New York en San Francisco.

Baidu Apolloscapes: Grote beelddataset die 26 verschillende semantische items definieert, zoals auto’s, fietsen, voetgangers, gebouwen, straatverlichting, enz.

Comma.ai: Meer dan 7 uur rijden op de snelweg. Details omvatten de snelheid van de auto, versnelling, stuurhoek, en GPS-coördinaten.

Oxford’s Robotic Car: Meer dan 100 herhalingen van dezelfde route door Oxford, UK, opgenomen over een periode van een jaar. De dataset bevat verschillende combinaties van weer, verkeer en voetgangers, samen met veranderingen op lange termijn, zoals bouwwerkzaamheden en wegwerkzaamheden.

Cityscape Dataset: Een grote dataset die stedelijke straatscènes in 50 verschillende steden vastlegt.

KUL Belgium Traffic Sign Dataset: Meer dan 10000+ verkeersbord annotaties van duizenden fysiek verschillende verkeersborden in de regio Vlaanderen in België.

MIT AGE Lab: Een voorbeeld van de 1000+ uren van multi-sensor rijden datasets verzameld in AgeLab.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Deze dataset bevat verkeersborden, voertuigdetectie, verkeerslichten, en trajectpatronen.