Az 50 legjobb ingyenes adathalmaz a gépi tanuláshoz | Lionbridge AI

Ez a cikk japán és egyszerűsített kínai nyelven is elérhető.

A Lionbridge AI rengeteg forrást gyűjtött össze a gépi tanuláshoz és a természetes nyelvi feldolgozáshoz. Korábbi cikkeinkben elmagyaráztuk, hogy miért olyan fontosak az adatkészletek a gépi tanulás és a természetes nyelvi feldolgozás szerves részei. Képzési adatkészletek nélkül a gépi tanuló algoritmusok nem tudnák megtanulni, hogyan végezzenek szövegbányászatot, szövegosztályozást vagy kategorizáljanak termékeket.

Ez a cikk a gépi tanuláshoz szükséges nyílt adatkészletek végső listája. Ezek a hatalmasaktól (rád nézek, Kaggle) a nagyon specifikusakig terjednek, mint például a pénzügyi hírek vagy az Amazon termékadatkészletek.

Először is, néhány gyors mutató, amit szem előtt kell tartanod, amikor adathalmazokat keresel:

Tiszta adathalmazokat keress, mert nem akarsz időt pazarolni arra, hogy magad tisztítsd az adatokat.
Túl sok sor és oszlop nélküli adatkészleteket keress, mert azokkal könnyebb dolgozni.
Az adatkészletnek kell lennie egy érdekes kérdésnek, amelyre választ lehet adni.

Open Dataset Finders

Honnan tölthetek le ingyenes, nyílt adatkészleteket gépi tanuláshoz?

A gépi tanulás megtanulásának legjobb módja a különböző projektekkel való gyakorlás. Az alábbi főbb adatkészletkeresők segítségével kereshet és tölthet le ingyenes adathalmazokat online.

Kaggle: Egy adattudományi oldal, amely számos kívülről származó érdekes adatkészletet tartalmaz. A főlistáján mindenféle hiánypótló adatkészletet megtalálhat, a ramen értékelésektől kezdve a kosárlabdaadatokon át egészen a Seattle-i kisállat-engedélyekig.

UCI Machine Learning Repository: Az egyik legrégebbi adatkészlet-forrás a weben, és nagyszerű első állomás, ha érdekes adatkészleteket keresel. Bár az adathalmazok a felhasználók hozzájárulásával készültek, és így különböző tisztaságúak, a túlnyomó többségük tiszta. Az adatokat közvetlenül az UCI Machine Learning repository-ból töltheti le, regisztráció nélkül.

Public Government Datasets for Machine Learning

Honnan tölthetek le nyilvános kormányzati adatkészleteket gépi tanuláshoz?

A demográfiai adatok a kormányzat és a társadalom fejlesztésének hatékony eszközei, mivel fontos gazdasági döntések alapjául szolgálnak. Az állami kormányzati adatok felhasználásával betanított gépi tanulási modellek segíthetnek a politikai döntéshozóknak a trendek azonosításában és a népesség csökkenésével vagy növekedésével, az elöregedéssel és a migrációval kapcsolatos problémákra való felkészülésben.

Data.gov: Ez az oldal lehetővé teszi több amerikai kormányzati ügynökség adatainak letöltését. Az adatok a kormányzati költségvetéstől az iskolai teljesítményértékelésekig terjedhetnek. Figyelmeztetés azonban: az adatok nagy része további kutatást igényel.

EU nyílt adatportál: Az EU nyílt adatportál hozzáférést biztosít az uniós intézmények által közzétett nyílt adatokhoz olyan különböző területeken, mint a gazdaság, a foglalkoztatás, a tudomány, a környezetvédelem és az oktatás.

School System Finances:

USA egészségügyi adatok: A népesség egészségére, a betegségekre, a gyógyszerekre és az egészségügyi tervekre vonatkozó adatokat az FDA gyógyszeradatbázisából és az USDA élelmiszer-összetétel adatbázisából gyűjtötték össze ebben az adatkészletben.

Az USA Nemzeti Oktatási Statisztikai Központja: Ez az oldal az oktatási intézményekre és oktatási demográfiai adatoknak ad otthont az Egyesült Államokból és a világ minden tájáról.

The UK Data Service: Az Egyesült Királyság legnagyobb társadalmi, gazdasági és népességi adatgyűjteménye található itt.

Data USA: Ez az oldal az Egyesült Államok nyilvános adatainak átfogó vizualizációját tartalmazza.

Pénzügyek & Gazdaságtudományi adatkészletek gépi tanuláshoz

Honnan tölthetek le pénzügyi és közgazdasági adatkészleteket gépi tanuláshoz?

A gépi tanulás aranyat érő lehetőségnek bizonyul a pénzügyi szektor számára. A pénzügyi mennyiségi adatokat évtizedekig őrzik, így az iparág tökéletesen alkalmas a gépi tanulásra. Valójában a gépi tanulás már most is átalakítja a pénzügyeket és a befektetési banki tevékenységet az algoritmikus kereskedés, a tőzsdei előrejelzések és a csalások felderítése terén. A közgazdaságtanban a gépi tanulás a gazdasági modellek tesztelésére és az állampolgárok viselkedésének előrejelzésére használható.

Quandl: A gazdasági és pénzügyi adatok jó forrása – hasznos a gazdasági mutatók vagy részvényárfolyamok előrejelzésére szolgáló modellek építéséhez.

World Bank Open Data:

IMF adatok: A Nemzetközi Valutaalap adatokat tesz közzé a nemzetközi pénzügyekről, adósságrátákról, devizatartalékokról, nyersanyagárakról és befektetésekről.

Financial Times Market Data: Naprakész információk a pénzügyi piacokról a világ minden tájáról, beleértve a tőzsdeindexeket, az árupiacokat és a devizapiacokat.

Google Trends: Az internetes keresési aktivitásra és a trendszerű hírekre vonatkozó adatok vizsgálata és elemzése világszerte.

Amerikai Gazdasági Szövetség (AEA): Jó forrás amerikai makrogazdasági adatok keresésére.

Image Datasets for Computer Vision

Where can I download image datasets for computer vision?

A képadatkészletek a számítógépes látás alkalmazások széles körének, például az orvosi képalkotó technológiáknak, az autonóm járműveknek és az arcfelismerésnek a képzéséhez hasznosak.

Labelme:

ImageNet: Az új algoritmusok de facto képadatkészlete. A WordNet hierarchia szerint szerveződik, amelyben a hierarchia minden egyes csomópontját több száz és több ezer kép ábrázolja.

LSUN: Jelenetmegértés számos járulékos feladattal (szoba elrendezés becslése, saliency előrejelzés stb.)

MS COCO: Általános képmegértés és képfeliratozás.

COIL100 : 100 különböző tárgyat képez le minden szögben 360 forgatással.

Visual Genome: Nagyon részletes vizuális tudásbázis ~100K kép feliratozásával.

Google’s Open Images: A Creative Commons keretében “több mint 6000 kategóriát átfogó címkékkel ellátott” képek 9 millió URL-jének gyűjteménye.

Labelled Faces in the Wild: 13 000 címkézett kép emberi arcokról, az arcfelismeréssel kapcsolatos alkalmazások fejlesztéséhez.

Stanford Dogs Dataset: 20 580 képet és 120 különböző kutyafajta kategóriát tartalmaz.

Indoor Scene Recognition: Egy nagyon speciális adathalmaz, hasznos, mivel a legtöbb jelenetfelismerő modell jobban működik “kint”. Tartalmaz 67 beltéri kategóriát és összesen 15620 képet.

VisualQA: Ez az adatkészlet 265 016 képhez kapcsolódó nyílt végű kérdéseket tartalmaz. A feltett kérdések megválaszolásához a látás és a nyelv megértése szükséges.

Szentimentelemzési adatkészletek gépi tanuláshoz

Honnan tölthetek le szentimentelemzési adatkészleteket gépi tanuláshoz?

Az érzelemelemelemző modelleknek nagy, speciális adathalmazokra van szükségük a hatékony tanuláshoz. Az alábbi lista néhány olyan végtelen lehetőségre hivatott utalni, amelyekkel javíthatja az érzéselemző algoritmusát.

Multidomain Sentiment Analysis Dataset:

IMDB Reviews: Egy régebbi, viszonylag kis adathalmaz bináris hangulatosztályozáshoz, 25 000 filmkritikát tartalmaz.

Stanford Sentiment Treebank: Standard sentiment adathalmaz sentiment annotációkkal.

Sentiment140:

Twitter US Airline Sentiment: Twitter adatok az amerikai légitársaságokról 2015 februárjából, pozitív, negatív és semleges tweetekre osztályozva.

Natural Language Processing Datasets

Honnan tölthetek le nyílt adathalmazokat természetes nyelvi feldolgozáshoz?

A természetes nyelvfeldolgozás hatalmas kutatási terület, de az alábbi lista a különböző természetes nyelvfeldolgozási feladatokhoz, például hangfelismeréshez és chatbotokhoz tartozó adatkészletek széles körét tartalmazza.

Enron Dataset: Az Enron felső vezetésének e-mail adatai, mappákba rendezve.

Amazon Reviews: Mintegy 35 millió értékelést tartalmaz az Amazonról 18 év távlatából. Az adatok tartalmazzák a termék- és felhasználói információkat, értékeléseket és az egyszerű szöveges értékelést.

Google Books Ngrams: A Google könyvekből származó szavak gyűjteménye.

Blogger Corpus: A blogger.com-ról gyűjtött 681 288 blogbejegyzés gyűjteménye. Minden egyes blog legalább 200 gyakran használt angol szó előfordulását tartalmazza.

Wikipedia Links Data: A Wikipédia teljes szövege. Az adathalmaz közel 1,9 milliárd szót tartalmaz több mint 4 millió cikkből. Kereshetsz szó, kifejezés vagy maga a bekezdés egy része alapján.

Gutenberg eBooks List: A Project Gutenberg e-könyvek kommentált listája.

Hansards Text Chunks from the Canadian Parliament: 1,3 millió szövegpár a 36. kanadai parlament jegyzőkönyvéből.

Jeopardy: A Jeopardy című kvízműsor több mint 200 000 kérdésének archívuma.

SMS Spam Collection in English: Egy adathalmaz, amely 5574 angol nyelvű SMS spam üzenetből áll.

Yelp Reviews: A Yelp által közzétett nyílt adatkészlet, amely több mint 5 millió értékelést tartalmaz.

UCI’s Spambase: Egy nagyméretű spam e-mail adathalmaz, hasznos spamszűréshez.

Datasets for Autonomous Vehicles

Honnan lehet letölteni nyílt adathalmazokat az autonóm járművek képzéséhez?

Az autonóm járműveket nagy mennyiségű, jó minőségű adatkészletekkel kell betanítani, hogy pontosan érzékelni tudják a környezetüket és a környező tárgyakat.

Berkeley DeepDrive BDD100k: Jelenleg a legnagyobb adatkészlet az önvezető mesterséges intelligencia számára. Több mint 100 000 videót tartalmaz több mint 1100 órányi vezetési tapasztalatról, különböző napszakokban és időjárási körülmények között. A kommentált képek New York és San Francisco környékéről származnak.

Baidu Apolloscapes: Nagyméretű képadatkészlet, amely 26 különböző szemantikus elemet határoz meg, például autókat, kerékpárokat, gyalogosokat, épületeket, utcai lámpákat stb.

Comma.ai: Több mint 7 órányi autópálya-vezetés. A részletek között szerepel az autó sebessége, gyorsulása, kormányszöge és GPS-koordinátái.

Oxford robotautója: Több mint 100 ismétlése ugyanannak az útvonalnak az Oxfordon (Egyesült Királyság) keresztül, egy év alatt rögzítve. Az adatkészlet az időjárás, a forgalom és a gyalogosok különböző kombinációit rögzíti, valamint a hosszú távú változásokat, például az építkezéseket és az útépítéseket.

Cityscape Dataset: Egy nagy adatkészlet, amely 50 különböző város városi utcaképeit rögzíti.

KUL Belgium Traffic Sign Dataset: Több mint 10000+ közlekedési tábla annotációja több ezer fizikailag elkülönülő közlekedési táblából a belgiumi Flandria régióban.

MIT AGE Lab: Minta az AgeLabban gyűjtött több mint 1000 órányi multiszenzoros vezetési adatkészletből.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Ez az adathalmaz közlekedési táblákat, járművek észlelését, közlekedési lámpákat és pályamintákat tartalmaz.