De 50 bästa gratis datamängderna för maskininlärning | Lionbridge AI

Denna artikel finns även på japanska och förenklad kinesiska.

Lionbridge AI har samlat en mängd resurser för maskininlärning och behandling av naturliga språk. I våra tidigare artiklar har vi förklarat varför dataset är en så viktig del av maskininlärning och behandling av naturliga språk. Utan träningsdatamängder skulle maskininlärningsalgoritmer inte ha något sätt att lära sig hur man gör textutvinning, textklassificering eller kategoriserar produkter.

Denna artikel är den ultimata listan över öppna datamängder för maskininlärning. De sträcker sig från de stora (jag tittar på dig, Kaggle) till de mycket specifika, t.ex. finansiella nyheter eller produktdatamängder från Amazon.

Först några snabba tips att tänka på när du söker efter datamängder:

Leta efter rena datamängder eftersom du inte vill slösa tid på att rensa data själv.
Sök efter dataset utan alltför många rader och kolumner, eftersom de är lättare att arbeta med.
Det bör finnas en intressant fråga som kan besvaras med datasetet.

Open Dataset Finders

Var kan jag ladda ner gratis, öppna dataset för maskininlärning?

Det bästa sättet att lära sig maskininlärning är att öva med olika projekt. Du kan söka och ladda ner gratis datamängder online med hjälp av dessa stora datamängdsökare.

Kaggle: En webbplats för datavetenskap som innehåller en mängd olika intressanta datamängder som bidragits externt. Du kan hitta alla typer av nischade dataset i dess huvudlista, från ramen-betyg till basketbollsdata och till och med Seattle djurlicenser.

UCI Machine Learning Repository: En av de äldsta källorna till datamängder på webben och ett bra första stopp när man letar efter intressanta datamängder. Även om datamängderna är användarbidrag och därmed har varierande renhetsgrad är de allra flesta rena. Du kan ladda ner data direkt från UCI Machine Learning repository, utan registrering.

Public Government Datasets for Machine Learning

Var kan jag ladda ner offentliga datamängder för maskininlärning?

Demografiska data är ett kraftfullt verktyg för att förbättra myndigheter och samhälle genom att ligga till grund för viktiga ekonomiska beslut. Maskininlärningsmodeller som tränats med hjälp av offentliga myndighetsdata kan hjälpa beslutsfattare att identifiera trender och förbereda sig för frågor som rör befolkningsminskning eller befolkningstillväxt, åldrande och migration.

Data.gov: Denna webbplats gör det möjligt att ladda ner data från flera amerikanska myndigheter. Uppgifterna kan vara allt från statliga budgetar till resultat från skolor. Var dock varnad: många av uppgifterna kräver ytterligare forskning.

EU Open Data Portal: EU:s portal för öppna data ger tillgång till öppna data som publiceras av EU:s institutioner inom så olika områden som ekonomi, sysselsättning, vetenskap, miljö och utbildning.

School System Finances: Här kan du läsa mer om EU:s ekonomi:

US Healthcare Data: Detta dataset utvecklades genom en undersökning av finanserna för skolsystem i USA.

US Healthcare Data: Detta dataset är ett verktyg för att samla in uppgifter om hälso- och sjukvården i USA: Uppgifter om befolkningens hälsa, sjukdomar, läkemedel och hälsoplaner har samlats in från FDA:s läkemedelsdatabas och USDA:s databas för livsmedelssammansättning i detta dataset.

US National Center for Education Statistics: Denna webbplats innehåller uppgifter om utbildningsinstitutioner och utbildningsdemografi från USA och hela världen.

The UK Data Service: Denna webbplats innehåller uppgifter om utbildningsinstitutioner och utbildningsdemografi från USA och hela världen: Här finns Storbritanniens största samling av sociala, ekonomiska och befolkningsrelaterade data.

Data USA: Denna webbplats har en omfattande visualisering av offentliga data från USA.

Finansiering & Ekonomi Datamängder för maskininlärning

Var kan jag ladda ner datamängder för finansiering och ekonomi för maskininlärning?

Maskininlärning visar sig vara ett gyllene tillfälle för finanssektorn. Finansiella kvantitativa uppgifter sparas i årtionden, så branschen är perfekt lämpad för maskininlärning. Faktum är att maskininlärning redan håller på att omvandla finans- och investeringsbanker för algoritmisk handel, börsprognoser och upptäckt av bedrägerier. Inom ekonomin kan maskininlärning användas för att testa ekonomiska modeller och förutsäga medborgarnas beteende.

Quandl: En bra källa för ekonomiska och finansiella data – användbar för att bygga modeller för att förutsäga ekonomiska indikatorer eller aktiekurser.

World Bank Open Data: Datamängder som omfattar befolkningsdemografi och ett stort antal ekonomiska indikatorer och utvecklingsindikatorer från hela världen.

IMF Data: Internationella valutafonden publicerar data om internationella finanser, skuldsatser, valutareserver, råvarupriser och investeringar.

Financial Times Market Data: Uppdaterad information om finansmarknader från hela världen, inklusive aktieindex, råvaror och valutahandel.

Google Trends: Undersöka och analysera data om sökaktivitet på internet och trendiga nyheter runt om i världen.

American Economic Association (AEA): En bra källa för att hitta makroekonomiska data från USA.

Bilddatamängder för datorseende

Var kan jag ladda ner bilddatamängder för datorseende?

Bilddatamängder är användbara för att träna ett stort antal tillämpningar för datorseende, t.ex. medicinsk bildteknik, autonoma fordon och ansiktsigenkänning.

Labelme: En stor uppsättning annoterade bilder.

ImageNet: Den faktiska bilddatamängden för nya algoritmer. Är organiserad enligt WordNet-hierarkin, där varje nod i hierarkin avbildas av hundratals och tusentals bilder.

LSUN: Scenförståelse med många kompletterande uppgifter (uppskattning av rumslayout, förutsägelse av saliency etc.)

MS COCO: Generisk bildförståelse och bildtextning.

COIL100 : 100 olika objekt som avbildas i alla vinklar i en 360-talsrotation.

Visual Genome: Mycket detaljerad visuell kunskapsbas med textning av ~100 000 bilder.

Google’s Open Images: En samling med 9 miljoner webbadresser till bilder ”som har annoterats med etiketter som spänner över 6 000 kategorier” under Creative Commons.

Labelled Faces in the Wild: 13 000 etiketterade bilder av mänskliga ansikten, för användning vid utveckling av tillämpningar som involverar ansiktsigenkänning.

Stanford Dogs Dataset: Dataset för hundar: Innehåller 20 580 bilder och 120 olika kategorier av hundraser.

Indoor Scene Recognition: Ett mycket specifikt dataset som är användbart eftersom de flesta modeller för scenigenkänning är bättre utomhus. Innehåller 67 inomhuskategorier och totalt 15620 bilder.

VisualQA: Detta dataset innehåller öppna frågor med anknytning till 265 016 bilder. Frågorna som ställs kräver en förståelse för syn och språk för att kunna besvaras.

Sentiment Analysis Datasets for Machine Learning

Var kan jag ladda ner dataset för sentimentanalys för maskininlärning?

Sentimentanalysmodeller kräver stora, specialiserade datamängder för att lära sig effektivt. Följande lista bör ge en fingervisning om några av de oändliga sätt som du kan förbättra din algoritm för sentimentanalys.

Multidomain Sentiment Analysis Dataset: Ett något äldre dataset som innehåller produktrecensioner från Amazon.

IMDB Reviews: Ett äldre, relativt litet dataset för binär klassificering av känslor som innehåller 25 000 filmrecensioner.

Stanford Sentiment Treebank: Standarddatabas med känslomässiga kommentarer.

Sentiment140: Standarddatabas med känslomässiga kommentarer: Ett populärt dataset som använder 160 000 tweets med emoticons borttagna i förväg.

Twitter US Airline Sentiment: Twitter-data om amerikanska flygbolag från februari 2015, klassificerade som positiva, negativa och neutrala tweets.

Dataset för behandling av naturliga språk

Var kan jag ladda ner öppna dataset för behandling av naturliga språk?

Naturlig språkbehandling är ett omfattande forskningsområde, men följande lista innehåller ett brett utbud av datamängder för olika uppgifter inom naturlig språkbehandling, t.ex. röstigenkänning och chatbots.

Enron Dataset: E-postdata från Enrons högsta ledning, organiserade i mappar.

Amazon Reviews: Innehåller cirka 35 miljoner recensioner från Amazon som sträcker sig över 18 år. Uppgifterna omfattar produkt- och användarinformation, betyg och recensionen i klartext.

Google Books Ngrams: En samling ord från Google Books.

Blogger Corpus: En samling 681 288 blogginlägg som samlats in från blogger.com. Varje blogg innehåller minst 200 förekomster av vanliga engelska ord.

Wikipedia Links Data: Den fullständiga texten på Wikipedia. Datamängden innehåller nästan 1,9 miljarder ord från mer än 4 miljoner artiklar. Du kan söka på ord, fraser eller delar av ett stycke.

Gutenberg eBooks List: Kommenterad lista över e-böcker från Project Gutenberg.

Hansards Text Chunks from the Canadian Parliament: 1,3 miljoner textpar från det 36:e kanadensiska parlamentets protokoll.

Jeopardy: Arkiv med mer än 200 000 frågor från frågesporten Jeopardy.

SMS Spam Collection in English: Ett dataset som består av 5 574 engelska SMS-spammeddelanden.

Yelp Reviews: En öppen datamängd som släppts av Yelp och som innehåller mer än 5 miljoner recensioner.

UCI’s Spambase: En öppen datamängd som innehåller mer än 5 miljoner recensioner: Ett stort dataset för skräppost, användbart för skräppostfiltrering.

Dataset för autonoma fordon

Var kan jag ladda ner öppna dataset för träning av autonoma fordon?

Autonoma fordon måste tränas med stora mängder datamängder av hög kvalitet så att de kan uppfatta sin miljö och omgivande objekt på ett korrekt sätt.

Berkeley DeepDrive BDD100k: För närvarande den största datamängden för självkörande AI. Innehåller över 100 000 videor från över 1 100 timmars körning under olika tider på dygnet och i olika väderförhållanden. De kommenterade bilderna kommer från områdena New York och San Francisco.

Baidu Apolloscapes: Stora bilddatamängder som definierar 26 olika semantiska objekt som bilar, cyklar, fotgängare, byggnader, gatubelysning etc.

Comma.ai: Mer än 7 timmars motorvägskörning. Detaljerna omfattar bilens hastighet, acceleration, styrvinkel och GPS-koordinater.

Oxfords robotbil: Över 100 upprepningar av samma rutt genom Oxford, Storbritannien, som tagits under ett år. Datasetet fångar olika kombinationer av väder, trafik och fotgängare, tillsammans med långsiktiga förändringar som byggnation och vägarbeten.

Cityscape Dataset: En stor datamängd som registrerar gatubilden i 50 olika städer.

KUL Belgium Traffic Sign Dataset: En stor datamängd som registrerar gatubilden i 50 olika städer: Mer än 10000+ trafikskyltar från tusentals fysiskt distinkta trafikskyltar i regionen Flandern i Belgien.

MIT AGE Lab: Dataset för trafikskyltar: Mer än 10000+ trafikskyltar från tusentals fysiskt distinkta trafikskyltar i regionen Flandern i Belgien: Ett urval av mer än 1000 timmars kördata med flera sensorer som samlats in vid AgeLab.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Detta dataset omfattar trafikskyltar, fordonsdetektering, trafikljus och banmönster.