50 nejlepších bezplatných datových sad pro strojové učení | Lionbridge AI

Tento článek je k dispozici také v japonštině a zjednodušené čínštině.

Lionbridge AI shromáždil bohaté zdroje pro strojové učení a zpracování přirozeného jazyka. V našich předchozích článcích jsme vysvětlili, proč jsou datové sady tak nedílnou součástí strojového učení a zpracování přirozeného jazyka. Bez tréninkových datových sad by se algoritmy strojového učení neměly jak naučit, jak provádět dolování textu, klasifikaci textu nebo kategorizaci produktů.

Tento článek je konečným seznamem otevřených datových sad pro strojové učení. Jejich rozsah sahá od rozsáhlých (díváme se na tebe, Kaggle) až po velmi specifické, jako jsou datové sady finančních zpráv nebo produktů Amazonu.

Nejprve několik stručných pokynů, které je třeba mít na paměti při hledání datových sad:

Hledejte čisté datové sady, protože nechcete sami ztrácet čas čištěním dat.
Hledejte datasety bez příliš mnoha řádků a sloupců, protože s těmi se lépe pracuje.
Měla by existovat zajímavá otázka, na kterou lze pomocí datasetu odpovědět.

Hledače otevřených datasetů

Kde si mohu stáhnout bezplatné otevřené datasety pro strojové učení?

Nejlepším způsobem, jak se naučit strojové učení, je procvičovat se na různých projektech. Bezplatné datové sady můžete vyhledávat a stahovat online pomocí těchto hlavních vyhledávačů datových sad.

Kaggle: Stránka pro datovou vědu, která obsahuje řadu zajímavých datových sad poskytovaných externími poskytovateli. V jeho hlavním seznamu najdete nejrůznější specializované datové sady, od hodnocení ramenu přes data o basketbalu až po licence na domácí zvířata v Seattlu.

UCI Machine Learning Repository: Je to jeden z nejstarších zdrojů datových sad na webu a skvělá první zastávka při hledání zajímavých datových sad. Ačkoli jsou datové sady poskytovány uživateli, a mají tedy různou úroveň čistoty, naprostá většina z nich je čistá. Data můžete stahovat přímo z úložiště UCI Machine Learning, a to bez registrace.

Veřejné vládní datové sady pro strojové učení

Kde lze stáhnout veřejné vládní datové sady pro strojové učení?

Demografická data jsou mocným nástrojem pro zlepšení vlády a společnosti, protože slouží jako základ pro důležitá ekonomická rozhodnutí. Modely strojového učení, které byly vyškoleny pomocí veřejných vládních dat, mohou pomoci tvůrcům politik identifikovat trendy a připravit se na problémy související s poklesem nebo růstem počtu obyvatel, stárnutím a migrací.

Data.gov: Tato stránka umožňuje stahovat data z různých vládních agentur USA. Data mohou sahat od vládních rozpočtů až po výsledky škol. Upozorňujeme však, že většina údajů vyžaduje další výzkum.

Portál otevřených dat EU: Portál otevřených dat EU poskytuje přístup k otevřeným datům zveřejňovaným institucemi EU v nejrůznějších oblastech, jako je ekonomika, zaměstnanost, věda, životní prostředí a vzdělávání.

Finance školského systému:

Údaje o zdravotnictví v USA: Tento soubor dat byl vytvořen na základě průzkumu financí školských systémů v USA:

Údaje o zdravotním stavu obyvatelstva, nemocech, lécích a zdravotních plánech byly v této datové sadě shromážděny z databáze léků FDA a databáze složení potravin USDA.

Národní centrum pro statistiku vzdělávání v USA:

The UK Data Service: Na této stránce jsou k dispozici údaje o vzdělávacích institucích a demografické údaje o vzdělávání z USA a celého světa:

Data USA: Tato stránka obsahuje komplexní vizualizaci veřejných dat USA.

Finance & Ekonomické datové sady pro strojové učení

Kde si mohu stáhnout finanční a ekonomické datové sady pro strojové učení?

Strojové učení se ukazuje jako zlatá příležitost pro finanční sektor. Finanční kvantitativní záznamy se uchovávají desítky let, takže toto odvětví je pro strojové učení dokonale vhodné. Ve skutečnosti strojové učení již transformuje finance a investiční bankovnictví pro algoritmické obchodování, předpovědi akciového trhu a odhalování podvodů. V ekonomice lze strojové učení využít k testování ekonomických modelů a předvídání chování občanů.

Quandl: Dobrý zdroj ekonomických a finančních dat – užitečný pro vytváření modelů k předvídání ekonomických ukazatelů nebo cen akcií.

Otevřená data Světové banky:

Data Mezinárodního měnového fondu: Datové sady zahrnující demografické údaje o obyvatelstvu a obrovské množství ekonomických a rozvojových ukazatelů z celého světa:

Mezinárodní měnový fond zveřejňuje údaje o mezinárodních financích, míře zadlužení, devizových rezervách, cenách komodit a investicích.

Financial Times Market Data:

Google Trends: Aktuální informace o finančních trzích z celého světa, včetně indexů cen akcií, komodit a deviz:

Americká ekonomická asociace (AEA): Zkoumejte a analyzujte údaje o vyhledávání na internetu a trendové zprávy z celého světa:

Soubory obrazových dat pro počítačové vidění

Kde lze stáhnout soubory obrazových dat pro počítačové vidění?

Soubory obrazových dat jsou užitečné pro trénování široké škály aplikací počítačového vidění, například pro lékařské zobrazovací technologie, autonomní vozidla a rozpoznávání obličejů.

Labelme:

ImageNet: Je to de-facto datová sada obrázků pro nové algoritmy. Je uspořádán podle hierarchie WordNet, v níž je každý uzel hierarchie znázorněn stovkami a tisíci obrázků.

LSUN: Porozumění scéně s mnoha pomocnými úlohami (odhad rozložení místnosti, predikce saliency atd.)

MS COCO: Obecné porozumění obrázkům a popisování.

COIL100 : 100 různých objektů zobrazených v každém úhlu v rotaci 360.

Vizuální genom:

Google’s Open Images: Velmi podrobná databáze vizuálních znalostí s popisky ~100 tisíc obrázků:

Labelled Faces in the Wild: 13 000 označených obrázků lidských tváří pro použití při vývoji aplikací, které zahrnují rozpoznávání obličejů.

Stanford Dogs Dataset: Sbírka 9 milionů adres URL obrázků, „které byly opatřeny anotacemi zahrnujícími více než 6 000 kategorií“ pod licencí Creative Commons:

Rozpoznávání vnitřních scén: Obsahuje 20 580 obrázků a 120 různých kategorií plemen psů: Velmi specifická datová sada, která je užitečná, protože většina modelů pro rozpoznávání scén je lepší „venku“. Obsahuje 67 vnitřních kategorií a celkem 15620 obrázků.

VisualQA: Tato datová sada obsahuje otevřené otázky týkající se 265 016 obrázků. Položené otázky vyžadují k zodpovězení porozumění vidění a jazyku.

Soubory dat pro analýzu sentimentu pro strojové učení

Kde lze stáhnout soubory dat pro analýzu sentimentu pro strojové učení?

Modely analýzy sentimentu vyžadují k efektivnímu učení velké specializované datové soubory. Následující seznam by měl naznačit některé z nekonečných možností, jak můžete vylepšit svůj algoritmus analýzy sentimentu.

Datová sada pro analýzu sentimentu pro více domén:

IMDB Reviews: O něco starší datová sada, která obsahuje recenze produktů z Amazonu:

Stanford Sentiment Treebank: Starší, relativně malý dataset pro binární klasifikaci sentimentu, obsahuje 25 000 filmových recenzí:

Sentiment140:

Twitter US Airline Sentiment: Populární dataset, který využívá 160 000 tweetů s předem odstraněnými emotikony:

Datové sady pro zpracování přirozeného jazyka

Kde lze stáhnout otevřené datové sady pro zpracování přirozeného jazyka?

Zpracování přirozeného jazyka je rozsáhlá oblast výzkumu, ale následující seznam obsahuje širokou škálu datových sad pro různé úlohy zpracování přirozeného jazyka, například pro rozpoznávání hlasu a chatboty.

Datová sada společnosti Enron:

Amazon Reviews: Data e-mailů od vrcholového vedení společnosti Enron, uspořádaná do složek: Obsahuje přibližně 35 milionů recenzí od společnosti Amazon za období 18 let. Data obsahují informace o produktech a uživatelích, hodnocení a prostý text recenze.

Google Books Ngrams:

Korpus bloggerů: Sbírka slov z knih Google: A collection 681,288 blog posts gathered from blogger.com. Každý blog obsahuje minimálně 200 výskytů běžně používaných anglických slov.

Data odkazů z Wikipedie: Úplný text Wikipedie. Soubor dat obsahuje téměř 1,9 miliardy slov z více než 4 milionů článků. Vyhledávat můžete podle slova, fráze nebo části samotného odstavce.

Seznam elektronických knih Gutenberg:

Hansards Text Chunks from the Canadian Parliament: Anotovaný seznam elektronických knih z projektu Gutenberg:

Jeopardy: Části textů z 36. kanadského parlamentu:

Sbírka spamových SMS v angličtině: Archiv více než 200 000 otázek z kvízového pořadu Jeopardy:

Recenze na Yelp: Sbírka dat, která se skládá z 5 574 anglických SMS spamů:

UCI’s Spambase: Otevřená datová sada zveřejněná společností Yelp, která obsahuje více než 5 milionů recenzí:

Datasety pro autonomní vozidla

Kde lze stáhnout otevřené datasety pro výcvik autonomních vozidel?

Autonomní vozidla je třeba trénovat pomocí velkého množství kvalitních datových sad, aby mohla přesně vnímat své okolí a okolní objekty.

Berkeley DeepDrive BDD100k: V současnosti největší datová sada pro samořídící umělou inteligenci. Obsahuje více než 100 000 videí z více než 1 100 hodin jízdy v různých denních dobách a za různých povětrnostních podmínek. Komentované záběry pocházejí z oblastí New Yorku a San Franciska.

Baidu Apolloscapes:

Comma.ai: Velká sada obrazových dat, která definuje 26 různých sémantických položek, jako jsou auta, jízdní kola, chodci, budovy, pouliční osvětlení atd: Více než 7 hodin jízdy po dálnici. Podrobnosti zahrnují rychlost auta, zrychlení, úhel natočení volantu a souřadnice GPS.

Oxfordské robotické auto: Více než 100 opakování stejné trasy přes Oxford ve Velké Británii, zachycených v průběhu jednoho roku. Soubor dat zachycuje různé kombinace počasí, dopravy a chodců spolu s dlouhodobými změnami, jako je výstavba a práce na silnici.

Soubor dat o krajině města:

KUL Belgium Traffic Sign Dataset: Rozsáhlá datová sada, která zaznamenává scény městských ulic v 50 různých městech:

MIT AGE Lab: Více než 10000+ anotací dopravních značek z tisíců fyzicky odlišných dopravních značek v regionu Flandry v Belgii:

LISA: Laboratoř pro inteligentní & bezpečné automobily, Kalifornská univerzita v San Diegu Datové sady: Tato datová sada obsahuje dopravní značky, detekci vozidel, semafory a vzory trajektorií.