The 50 Best Free Datasets for Machine Learning | Lionbridge AI

Tämä artikkeli on saatavilla myös japaniksi ja yksinkertaistettuna kiinaksi.

Lionbridge AI on koonnut yhteen runsaasti resursseja koneoppimiseen ja luonnollisen kielen käsittelyyn. Aiemmissa artikkeleissamme selitimme, miksi tietokannat ovat niin olennainen osa koneoppimista ja luonnollisen kielen käsittelyä. Ilman harjoitteluaineistoja koneoppimisen algoritmeilla ei olisi mitään keinoa oppia tekemään tekstinlouhintaa, tekstiluokittelua tai tuotteiden luokittelua.

Tämä artikkeli on täydellinen luettelo koneoppimisen avoimista aineistoista. Ne vaihtelevat laajoista (katson sinua, Kaggle) hyvin spesifisiin, kuten talousuutisten tai Amazonin tuotetietoaineistoihin.

Aluksi muutama nopea vinkki, jotka kannattaa pitää mielessä, kun etsii tietokokonaisuuksia:

Hae puhtaita tietokokonaisuuksia, koska et halua tuhlata aikaa datan puhdistamiseen itse.
Hae tietokokonaisuuksia, joissa ei ole liikaa rivejä ja sarakkeita, koska niiden kanssa on helpompi työskennellä.
Pitäisi olla mielenkiintoinen kysymys, johon voidaan vastata tietokokonaisuuden avulla.

Open Dataset Finders

Missä voin ladata ilmaisia, avoimia tietokokonaisuuksia koneellista oppimista varten?

Parhaimmin koneellista oppimista oppii harjoittelemalla erilaisten projektien avulla. Voit etsiä ja ladata ilmaisia tietokokonaisuuksia verkosta näiden tärkeimpien tietokokonaisuuksien löytäjien avulla.

Kaggle: Datatieteen sivusto, joka sisältää erilaisia ulkopuolelta toimitettuja mielenkiintoisia tietokokonaisuuksia. Löydät sen pääluettelosta kaikenlaisia niche-tietoaineistoja ramen-luokituksista koripallotietoihin ja jopa Seattlen lemmikkieläinlupiin.

UCI Machine Learning Repository: Yksi vanhimmista tietokokonaisuuksien lähteistä verkossa, ja hyvä ensimmäinen pysähdyspaikka, kun etsit mielenkiintoisia tietokokonaisuuksia. Vaikka tietokokonaisuudet ovat käyttäjien tuottamia, ja näin ollen niiden puhtausaste vaihtelee, suurin osa on kuitenkin puhtaita. Voit ladata dataa suoraan UCI:n koneoppimisen arkistosta ilman rekisteröitymistä.

Public Government Datasets for Machine Learning

Where I can I download public government datasets for machine learning?

Demografiset tiedot ovat tehokas väline hallinnon ja yhteiskunnan parantamiseksi, sillä ne toimivat tärkeiden taloudellisten päätösten perustana. Koneoppimismallit, jotka on koulutettu julkishallinnon tietojen avulla, voivat auttaa poliittisia päättäjiä tunnistamaan suuntauksia ja valmistautumaan väestön vähenemiseen tai kasvuun, ikääntymiseen ja muuttoliikkeeseen liittyviin kysymyksiin.

Data.gov: Tämä sivusto mahdollistaa tietojen lataamisen useilta Yhdysvaltain valtion virastoilta. Tiedot voivat vaihdella valtion budjeteista koulujen suorituspisteisiin. Varoitetaan kuitenkin: suuri osa tiedoista vaatii lisätutkimuksia.

EU Open Data Portal: EU:n avoimen datan portaali tarjoaa pääsyn EU:n toimielinten julkaisemaan avoimeen dataan niinkin erilaisilta aloilta kuin talous, työllisyys, tiede, ympäristö ja koulutus.

School System Finances:

US Healthcare Data: Tähän tietokokonaisuuteen on kerätty tietoja väestön terveydestä, sairauksista, lääkkeistä ja terveydenhuoltosuunnitelmista FDA:n lääketietokannasta ja USDA:n elintarvikkeiden koostumustietokannasta.

The US National Center for Education Statistics: Tällä sivustolla on tietoja oppilaitoksista ja koulutusdemografiasta Yhdysvalloista ja kaikkialta maailmasta.

The UK Data Service: Ison-Britannian suurin kokoelma sosiaali-, talous- ja väestötietoja löytyy täältä.

Data USA: Tällä sivustolla on kattava visualisointi Yhdysvaltojen julkisista tiedoista.

Finance & Economics Datasets for Machine Learning

Where I can I download finance and economics datasets for machine learning?

Koneoppiminen on osoittautumassa kultaiseksi mahdollisuudeksi rahoitusalalle. Kvantitatiivisia rahoitustietoja säilytetään vuosikymmeniä, joten ala soveltuu erinomaisesti koneoppimiseen. Itse asiassa koneoppiminen on jo muuttamassa rahoitus- ja investointipankkitoimintaa algoritmisen kaupankäynnin, pörssiennusteiden ja petosten havaitsemisen osalta. Taloustieteessä koneoppimista voidaan käyttää talousmallien testaamiseen ja kansalaisten käyttäytymisen ennustamiseen.

Quandl: Hyvä talous- ja rahoitustietojen lähde – hyödyllinen mallien rakentamiseen talousindikaattoreiden tai pörssikurssien ennustamiseksi.

World Bank Open Data:

IMF Data: Kansainvälinen valuuttarahasto julkaisee tietoja kansainvälisestä taloudesta, velkakursseista, valuuttavarannoista, hyödykkeiden hinnoista ja investoinneista.

Financial Times Market Data: Ajantasaiset tiedot rahoitusmarkkinoista eri puolilta maailmaa, mukaan lukien osakeindeksit, hyödykkeet ja valuutta.

Google Trends: Tutki ja analysoi tietoja internetin hakutoiminnasta ja trenditietoja uutisista ympäri maailmaa.

American Economic Association (AEA): Hyvä lähde Yhdysvaltojen makrotaloudellisten tietojen löytämiseen.

Image Datasets for Computer Vision

Where can I download image datasets for computer vision?

Kuvatietoaineistot ovat hyödyllisiä monenlaisten tietokonenäön sovellusten, kuten lääketieteellisen kuvantamistekniikan, autonomisten ajoneuvojen ja kasvontunnistuksen harjoittelussa.

Labelme: Suuri annotoitujen kuvien tietokanta.

ImageNet: De-facto-kuvatietokanta uusia algoritmeja varten. Järjestetään WordNet-hierarkian mukaisesti, jossa jokaista hierarkian solmua kuvataan sadoilla ja tuhansilla kuvilla.

LSUN: Scene understanding with many ancillary tasks (room layout estimation, saliency prediction, etc.)

MS COCO: Geneerinen kuvien ymmärtäminen ja kuvatekstien laatiminen.

COIL100 : 100 erilaista objektia kuvattuna jokaisessa kuvakulmassa 360-kierroksella.

Visual Genome: Erittäin yksityiskohtainen visuaalinen tietopohja, jossa on ~100K kuvan kuvatekstit.

Googlen Open Images: Kokoelma 9 miljoonasta URL-osoitteesta kuviin, ”jotka on kommentoitu yli 6000 kategoriaa kattavilla merkinnöillä” Creative Commonsin alaisuudessa.

Labelled Faces in the Wild: 13 000 merkattua kuvaa ihmiskasvoista, käytettäväksi sovellusten kehittämisessä, joihin liittyy kasvojentunnistus.

Stanford Dogs Dataset: Sisältää 20 580 kuvaa ja 120 eri koirarotuluokkaa.

Indoor Scene Recognition: Erittäin erityinen tietokokonaisuus, joka on hyödyllinen, koska useimmat kohtaustunnistusmallit ovat parempia ”ulkona”. Sisältää 67 sisätilaluokkaa ja yhteensä 15620 kuvaa.

VisualQA: Tämä tietokokonaisuus sisältää avoimia kysymyksiä, jotka liittyvät 265 016 kuvaan. Esitetyt kysymykset edellyttävät vastaaminen näkemisen ja kielen ymmärtämistä.

Sentiment Analysis Datasets for Machine Learning

Where I can I download sentiment analysis datasets for machine learning?

Sentimenttianalyysimallit vaativat suuria, erikoistuneita tietokokonaisuuksia oppiakseen tehokkaasti. Seuraavassa luettelossa pitäisi olla vihjeitä loputtomista tavoista, joilla voit parantaa sentimenttianalyysialgoritmiasi.

Multidomain Sentiment Analysis Dataset: Hieman vanhempi tietokokonaisuus, joka sisältää tuotearvosteluja Amazonista.

IMDB Reviews: Vanhempi, suhteellisen pieni tietokokonaisuus binääriseen tunteiden luokitteluun, sisältää 25 000 elokuva-arvostelua.

Stanford Sentiment Treebank: Standardi sentimenttitietokanta, jossa on sentimenttiannotaatioita.

Sentiment140: Suosittu tietokanta, joka käyttää 160 000 twiittiä, joista on poistettu hymiöt etukäteen.

Twitter US Airline Sentiment: Yhdysvaltalaisia lentoyhtiöitä koskeva Twitter-data helmikuulta 2015, luokiteltuna positiivisiin, negatiivisiin ja neutraaleihin twiitteihin.

Luonnollisen kielen prosessoinnin datasetit

Missä voin ladata avoimia datasettejä luonnollisen kielen prosessointiin?

Luonnollisen kielen prosessointi on massiivinen tutkimusala, mutta seuraavassa luettelossa on laaja valikoima tietokokonaisuuksia erilaisiin luonnollisen kielen prosessointitehtäviin, kuten puheentunnistukseen ja chatbotteihin.

Enron Dataset: Enronin ylimmän johdon sähköpostitiedot, jotka on järjestetty kansioihin.

Amazon Reviews: Sisältää noin 35 miljoonaa arvostelua Amazonista 18 vuoden ajalta. Data sisältää tuote- ja käyttäjätiedot, arvosanat ja selkokielisen arvostelun.

Google Books Ngrams: Kokoelma sanoja Google Booksista.

Blogger Corpus: Kokoelma 681 288 blogikirjoitusta, jotka on kerätty blogger.com-sivustolta. Jokainen blogi sisältää vähintään 200 esiintymää yleisesti käytettyjä englanninkielisiä sanoja.

Wikipedia Links Data: Wikipedian koko teksti. Aineisto sisältää lähes 1,9 miljardia sanaa yli 4 miljoonasta artikkelista. Voit hakea sanan, lauseen tai itse kappaleen osan perusteella.

Gutenberg eBooks List: Kommentoitu luettelo Project Gutenbergin e-kirjoista.

Hansards Text Chunks from the Canadian Parliament: 1,3 miljoonaa tekstiparia Kanadan 36. parlamentin pöytäkirjoista.

Jeopardy: Arkisto, joka sisältää yli 200 000 kysymystä tietovisailuohjelmasta Jeopardy.

SMS Spam Collection in English: Tietokokonaisuus, joka koostuu 5 574 englanninkielisestä tekstiviestipostiviestistä.

Yelp-arvostelut: Yelpin julkaisema avoin tietokokonaisuus, joka sisältää yli 5 miljoonaa arvostelua.

UCI’s Spambase: A large spam email dataset, useful for spam filtering.

Datasets for Autonomous Vehicles

Where I can I download open datasets for training autonomous vehicles?

Autonomiset ajoneuvot on koulutettava suurilla määrillä korkealaatuisia tietokokonaisuuksia, jotta ne pystyvät hahmottamaan ympäristönsä ja ympäröivät kohteet tarkasti.

Berkeley DeepDrive BDD100k: Tällä hetkellä suurin tietokokonaisuus itsestään ajavaa tekoälyä varten. Sisältää yli 100 000 videota yli 1 100 tunnin ajokokemuksista eri vuorokaudenaikoina ja sääolosuhteissa. Kommentoidut kuvat ovat peräisin New Yorkin ja San Franciscon alueilta.

Baidu Apolloscapes: Suuri kuvatietokanta, joka määrittelee 26 erilaista semanttista kohdetta, kuten autot, polkupyörät, jalankulkijat, rakennukset, katuvalot jne.

Comma.ai: Yli 7 tuntia moottoritieajoa. Tiedot sisältävät auton nopeuden, kiihtyvyyden, ohjauskulman ja GPS-koordinaatit.

Oxfordin robottiauto: Yli 100 toistoa samaa reittiä Oxfordin läpi Yhdistyneessä kuningaskunnassa, kuvattu vuoden aikana. Tietoaineisto tallentaa erilaisia sää-, liikenne- ja jalankulkijayhdistelmiä sekä pitkän aikavälin muutoksia, kuten rakentamista ja tietöitä.

Cityscape Dataset: Suuri tietokokonaisuus, joka tallentaa kaupunkien katukuvia 50 eri kaupungissa.

KUL Belgium Traffic Sign Dataset: Yli 10000+ liikennemerkkiannotaatiota tuhansista fyysisesti erillisistä liikennemerkeistä Flanderin alueella Belgiassa.

MIT AGE Lab: Näyte AgeLabissa kerätyistä yli 1000 tunnin monianturiajotietoaineistoista.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Tämä tietokokonaisuus sisältää liikennemerkkejä, ajoneuvojen havaitsemista, liikennevaloja ja ajoratamalleja.