De 50 bedste gratis datasæt til maskinlæring | Lionbridge AI

Denne artikel er også tilgængelig på japansk og forenklet kinesisk.

Lionbridge AI har samlet et væld af ressourcer til maskinlæring og behandling af naturlige sprog. I vores tidligere artikler har vi forklaret, hvorfor datasæt er en så integreret del af maskinlæring og naturlig sprogbehandling. Uden træningsdatasæt ville maskinlæringsalgoritmer ikke have nogen mulighed for at lære at lave tekstmining, tekstklassificering eller kategorisere produkter.

Denne artikel er den ultimative liste over åbne datasæt til maskinlæring. De spænder fra de store (jeg kigger på dig, Kaggle) til de meget specifikke, såsom finansielle nyheder eller Amazon-produktdatasæt.

Først nogle hurtige pointer, som du skal huske på, når du søger efter datasæt:

Søg efter rene datasæt, fordi du ikke ønsker at spilde tid på at rense dataene selv.
Søg efter datasæt uden for mange rækker og kolonner, fordi de er nemmere at arbejde med.
Der skal være et interessant spørgsmål, der kan besvares med datasættet.

Open Dataset Finders

Hvor kan jeg downloade gratis, åbne datasæt til maskinlæring?

Den bedste måde at lære maskinlæring på er ved at øve sig med forskellige projekter. Du kan søge og downloade gratis datasæt online ved hjælp af disse store datasætfindere.

Kaggle: Et datavidenskabswebsted, der indeholder en række eksterne indsendte interessante datasæt. Du kan finde alle former for nichedatasæt på dens masterliste, fra ramen-bedømmelser til basketballdata til og endda Seattle kæledyrslicenser.

UCI Machine Learning Repository: En af de ældste kilder til datasæt på nettet, og et godt første stop, når du leder efter interessante datasæt. Selv om datasættene er brugerbidraget og derfor har forskellige grader af renhed, er langt de fleste af dem rene. Du kan downloade data direkte fra UCI Machine Learning repository uden registrering.

Public Government Datasets for Machine Learning

Hvor kan jeg downloade offentlige offentlige datasæt til maskinlæring?

Demografiske data er et effektivt redskab til at forbedre regeringen og samfundet ved at tjene som grundlag for vigtige økonomiske beslutninger. Maskinlæringsmodeller, der er trænet ved hjælp af offentlige offentlige offentlige data, kan hjælpe politiske beslutningstagere med at identificere tendenser og forberede sig på problemer i forbindelse med befolkningsnedgang eller -vækst, aldring og migration.

Data.gov: Dette websted gør det muligt at downloade data fra flere amerikanske regeringsorganer. Data kan spænde fra offentlige budgetter til karakterer for skolepræstationer. Vær dog advaret: Mange af dataene kræver yderligere forskning.

EU Open Data Portal: EU Open Data Portal giver adgang til åbne data, der er offentliggjort af EU-institutioner på så forskellige områder som økonomi, beskæftigelse, videnskab, miljø og uddannelse.

Skolesystemets finanser: Dette datasæt blev udviklet gennem en undersøgelse af finanserne i skolesystemer i USA.

US Healthcare Data: Dette datasæt blev udviklet gennem en undersøgelse af finanserne i skolesystemer i USA: Data om befolkningens sundhed, sygdomme, lægemidler og sundhedsplaner er blevet indsamlet fra FDA’s lægemiddeldatabase og USDA’s fødevaresammensætningsdatabase i dette datasæt.

Det amerikanske nationale center for uddannelsesstatistik: Dette websted indeholder data om uddannelsesinstitutioner og demografiske data om uddannelse fra USA og hele verden.

The UK Data Service: Dette websted indeholder data om uddannelsesinstitutioner og demografiske data om uddannelse fra USA og hele verden: Det Forenede Kongeriges største samling af sociale, økonomiske og befolkningsmæssige data findes her.

Data USA: Dette websted har en omfattende visualisering af offentlige data fra USA.

Finans &Økonomi datasæt til maskinlæring

Hvor kan jeg downloade finans- og økonomidatasæt til maskinlæring?

Maskinlæring viser sig at være en gylden mulighed for den finansielle sektor. Finansielle kvantitative optegnelser opbevares i årtier, så branchen egner sig perfekt til maskinlæring. Faktisk er maskinlæring allerede i færd med at forandre finanssektoren og investeringsbanker med henblik på algoritmisk handel, forudsigelser af aktiemarkedet og påvisning af svig. Inden for økonomi kan maskinlæring bruges til at teste økonomiske modeller og forudsige borgernes adfærd.

Quandl: En god kilde til økonomiske og finansielle data – nyttig til at opbygge modeller til at forudsige økonomiske indikatorer eller aktiekurser.

World Bank Open Data: Datasæt, der dækker befolkningsdemografi og et stort antal økonomiske og udviklingsindikatorer fra hele verden.

IMF Data: Den Internationale Valutafond offentliggør data om internationale finanser, gældssatser, valutareserver, råvarepriser og investeringer.

Financial Times Market Data: Opdaterede oplysninger om de finansielle markeder fra hele verden, herunder aktieindekser, råvarer og valutakurser.

Google Trends: Undersøge og analysere data om søgeaktivitet på internettet og tendenser i nyhedshistorier i hele verden.

American Economic Association (AEA): En god kilde til at finde makroøkonomiske data om USA.

Billeddatasæt til computer vision

Hvor kan jeg downloade billeddatasæt til computer vision?

Billeddatasæt er nyttige til træning af en lang række computer vision-applikationer, f.eks. medicinsk billedteknologi, autonome køretøjer og ansigtsgenkendelse.

Labelme: Et stort datasæt af annoterede billeder.

ImageNet: Et stort datasæt af annoterede billeder: Det de-facto billeddatasæt til nye algoritmer. Er organiseret efter WordNet-hierarkiet, hvor hver knude i hierarkiet er afbildet af hundred- og tusindvis af billeder.

LSUN: Sceneforståelse med mange hjælpeopgaver (vurdering af rumlayout, forudsigelse af saliency osv.)

MS COCO: Generisk billedforståelse og billedtekstning.

COIL100 : 100 forskellige objekter afbildet i alle vinkler i en 360 rotation.

Visual Genome: Meget detaljeret visuel vidensbase med billedtekster for ~100K billeder.

Google’s Open Images: En samling af 9 millioner URL’er til billeder “der er blevet annoteret med etiketter, der spænder over 6.000 kategorier” under Creative Commons.

Labelled Faces in the Wild: 13.000 mærket billeder af menneskelige ansigter, til brug ved udvikling af applikationer, der involverer ansigtsgenkendelse.

Stanford Dogs Dataset: Indeholder 20 580 billeder og 120 forskellige kategorier af hunderacer.

Indoor Scene Recognition: Et meget specifikt datasæt, der er nyttigt, da de fleste modeller til genkendelse af scener er bedre “udenfor”. Indeholder 67 indendørs kategorier og i alt 15620 billeder.

VisualQA: Dette datasæt indeholder åbne spørgsmål i forbindelse med 265 016 billeder. De stillede spørgsmål kræver en forståelse af syn og sprog for at kunne besvares.

Sentimentanalyse-datasæt til maskinlæring

Hvor kan jeg downloade datasæt til sentimentanalyse til maskinlæring?

Sentimentanalysemodeller kræver store, specialiserede datasæt for at lære effektivt. Den følgende liste bør give et fingerpeg om nogle af de uendelige måder, hvorpå du kan forbedre din algoritme til følelsesanalyse.

Multidomænedatasæt til følelsesanalyse: Et lidt ældre datasæt, der indeholder produktanmeldelser fra Amazon.

IMDB Reviews: Et ældre, relativt lille datasæt til binær sentimentklassificering, der indeholder 25.000 filmanmeldinger.

Stanford Sentiment Treebank: Standard datasæt med følelsesannotationer.

Sentiment140: Et populært datasæt, der bruger 160.000 tweets med emoticons fjernet på forhånd.

Twitter US Airline Sentiment: Twitter-data om amerikanske flyselskaber fra februar 2015, klassificeret som positive, negative og neutrale tweets.

Natural Language Processing Datasets

Hvor kan jeg downloade åbne datasæt til naturlig sprogbehandling?

Naturlig sprogbehandling er et omfattende forskningsområde, men følgende liste indeholder en bred vifte af datasæt til forskellige opgaver inden for naturlig sprogbehandling, f.eks. stemmegenkendelse og chatbots.

Enron-datasæt: E-mail-data fra den øverste ledelse i Enron, organiseret i mapper.

Amazon Reviews: Indeholder omkring 35 millioner anmeldelser fra Amazon, der strækker sig over 18 år. Dataene omfatter produkt- og brugeroplysninger, vurderinger og anmeldelsen i klartekst.

Google Books Ngrams: En samling af ord fra Google Books.

Blogger Corpus: En samling af ord fra Google Books: En samling 681.288 blogindlæg indsamlet fra blogger.com. Hver blog indeholder mindst 200 forekomster af almindeligt anvendte engelske ord.

Wikipedia Links Data: Den fulde tekst på Wikipedia. Datasættet indeholder næsten 1,9 mia. ord fra mere end 4 mio. artikler. Du kan søge efter ord, sætning eller en del af et afsnit.

Gutenberg eBooks List: Kommenteret liste over e-bøger fra Project Gutenberg.

Hansards Text Chunks from the Canadian Parliament (tekststykker fra det canadiske parlament): 1,3 millioner tekstpar fra det 36. canadiske parlaments optegnelser.

Jeopardy: Arkiv med mere end 200.000 spørgsmål fra quizshowet Jeopardy.

SMS Spam Collection in English: Et datasæt, der består af 5 574 engelske sms-spam-beskeder.

Yelp Reviews: Et åbent datasæt frigivet af Yelp, indeholder mere end 5 millioner anmeldelser.

UCI’s Spambase: Et stort datasæt til spammails, der er nyttigt til spamfiltrering.

Datasæt til autonome køretøjer

Hvor kan jeg downloade åbne datasæt til træning af autonome køretøjer?

Autonome køretøjer skal trænes med store mængder datasæt af høj kvalitet, så de kan opfatte deres omgivelser og omgivende objekter nøjagtigt.

Berkeley DeepDrive BDD100k: I øjeblikket det største datasæt til selvkørende AI. Indeholder over 100.000 videoer af over 1.100 timers køreoplevelser på forskellige tidspunkter af dagen og under forskellige vejrforhold. De kommenterede billeder kommer fra New York- og San Francisco-områderne.

Baidu Apolloscapes: Stort billeddatasæt, der definerer 26 forskellige semantiske elementer som f.eks. biler, cykler, fodgængere, bygninger, gadebelysning osv.

Comma.ai: Mere end 7 timers kørsel på motorvej. Detaljerne omfatter bilens hastighed, acceleration, styringsvinkel og GPS-koordinater.

Oxford’s Robotic Car: Over 100 gentagelser af den samme rute gennem Oxford, UK, optaget over en periode på et år. Datasættet indfanger forskellige kombinationer af vejr, trafik og fodgængere samt langsigtede ændringer som f.eks. byggeri og vejarbejde.

Cityscape Dataset: Et stort datasæt, der registrerer gadebilleder i 50 forskellige byer.

KUL Belgium Traffic Sign Dataset: Et stort datasæt, der registrerer bybilleder i 50 forskellige byer: Mere end 10000+ trafikskilte annotationer fra tusindvis af fysisk forskellige trafikskilte i Flandern-regionen i Belgien.

MIT AGE Lab: Et udsnit af de mere end 1.000 timers multi-sensor-datasæt om kørsel, der er indsamlet i AgeLab.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Datasæt: Et udsnit af de mere end 1.000 timers multi-sensor-datasæt om kørsel, der er indsamlet i AgeLab: Dette datasæt omfatter trafikskilte, køretøjsdetektering, trafiklys og banemønstre.