Cele mai bune 50 de seturi de date gratuite pentru învățare automată | Lionbridge AI

Acest articol este disponibil și în japoneză și chineză simplificată.

Lionbridge AI a adunat o mulțime de resurse pentru activitățile de învățare automată și de procesare a limbajului natural. În articolele noastre anterioare, am explicat de ce seturile de date sunt o parte integrantă a învățării automate și a procesării limbajului natural. Fără seturi de date de instruire, algoritmii de învățare automată nu ar avea cum să învețe cum să facă minerit de text, clasificare de text sau să clasifice produse.

Acest articol este lista supremă de seturi de date deschise pentru învățarea automată. Acestea variază de la cele mai vaste (ne uităm la tine, Kaggle) la cele extrem de specifice, cum ar fi știrile financiare sau seturile de date de produse Amazon.

În primul rând, câteva indicii rapide de care să țineți cont atunci când căutați seturi de date:

Căutați seturi de date curate, deoarece nu doriți să pierdeți timp curățând singuri datele.
Căutați seturi de date fără prea multe rânduri și coloane, deoarece este mai ușor să lucrați cu acestea.
Ar trebui să existe o întrebare interesantă la care se poate răspunde cu setul de date.

Open Dataset Finders

Unde pot descărca seturi de date gratuite și deschise pentru învățarea automată?

Cel mai bun mod de a învăța învățarea automată este de a practica cu diferite proiecte. Puteți să căutați și să descărcați seturi de date gratuite online folosind aceste găsitoare de seturi de date majore.

Kaggle: Un site de știință a datelor care conține o varietate de seturi de date interesante, contribuită din exterior. Puteți găsi tot felul de seturi de date de nișă în lista sa principală, de la evaluări de ramen la date despre baschet și chiar licențe pentru animale de companie din Seattle.

UCI Machine Learning Repository: Una dintre cele mai vechi surse de seturi de date de pe web și o primă oprire excelentă atunci când căutați seturi de date interesante. Deși seturile de date sunt contribuite de utilizatori și, prin urmare, au niveluri diferite de curățenie, marea majoritate sunt curate. Puteți descărca date direct din UCI Machine Learning repository, fără înregistrare.

Public Government Datasets for Machine Learning

De unde pot descărca seturi de date guvernamentale publice pentru învățarea automată?

Datele demografice sunt un instrument puternic pentru îmbunătățirea guvernului și a societății, servind drept bază pentru decizii economice majore. Modelele de învățare automată care au fost antrenate cu ajutorul datelor guvernamentale publice pot ajuta factorii de decizie politică să identifice tendințele și să se pregătească pentru problemele legate de declinul sau creșterea populației, îmbătrânirea și migrația.

Data.gov: Acest site face posibilă descărcarea de date de la mai multe agenții guvernamentale din SUA. Datele pot varia de la bugete guvernamentale până la scoruri de performanță școlară. Atenție însă: o mare parte din date necesită cercetări suplimentare.

EU Open Data Portal: Portalul de date deschise al UE oferă acces la date deschise publicate de instituțiile UE în domenii atât de diverse precum economia, ocuparea forței de muncă, știința, mediul înconjurător și educația.

School System Finances: Acest set de date a fost dezvoltat prin intermediul unui sondaj privind finanțele sistemelor școlare din SUA.

US Healthcare Data: Datele privind sănătatea populației, bolile, medicamentele și planurile de sănătate au fost colectate în acest set de date din baza de date privind medicamentele FDA și din baza de date privind compoziția alimentelor USDA.

Centrul Național de Statistică a Educației din SUA: Acest site găzduiește date despre instituțiile de învățământ și date demografice privind educația din SUA și din întreaga lume.

The UK Data Service: Cea mai mare colecție de date sociale, economice și demografice din Marea Britanie poate fi găsită aici.

Data USA: Acest site are o vizualizare cuprinzătoare a datelor publice din SUA.

Finanțe & Seturi de date economice pentru învățarea automată

Unde pot descărca seturi de date financiare și economice pentru învățarea automată?

Învățarea mecanică se dovedește a fi o oportunitate de aur pentru sectorul financiar. Înregistrările cantitative financiare sunt păstrate timp de zeci de ani, astfel încât acest sector este perfect potrivit pentru învățarea automată. De fapt, învățarea automată transformă deja finanțele și băncile de investiții pentru tranzacționarea algoritmică, predicțiile bursiere și detectarea fraudelor. În economie, învățarea automată poate fi folosită pentru a testa modelele economice și pentru a prezice comportamentul cetățenilor.

Quandl: O sursă bună de date economice și financiare – utilă pentru a construi modele de predicție a indicatorilor economici sau a prețurilor acțiunilor.

World Bank Open Data: Seturi de date care acoperă date demografice ale populației și un număr foarte mare de indicatori economici și de dezvoltare din întreaga lume.

IMF Data: Fondul Monetar Internațional publică date privind finanțele internaționale, ratele datoriei, rezervele valutare, prețurile materiilor prime și investițiile.

Financial Times Market Data: Informații actualizate despre piețele financiare din întreaga lume, inclusiv indici bursieri, mărfuri și schimburi valutare.

Google Trends: Examinați și analizați datele privind activitatea de căutare pe internet și știrile în tendințe din întreaga lume.

American Economic Association (AEA): O sursă bună pentru a găsi date macroeconomice din SUA.

Image Datasets for Computer Vision

Unde pot descărca seturi de date de imagini pentru viziune computerizată?

Seturile de date de imagini sunt utile pentru instruirea unei game largi de aplicații de computer vision, cum ar fi tehnologia imaginii medicale, vehiculele autonome și recunoașterea fețelor.

Labelme: Un set de date mare de imagini adnotate.

ImageNet: Setul de date de-facto de imagini pentru algoritmi noi. Este organizat în funcție de ierarhia WordNet, în care fiecare nod al ierarhiei este reprezentat de sute și mii de imagini.

LSUN: Înțelegerea scenei cu multe sarcini auxiliare (estimarea aspectului camerei, predicția salienței, etc.)

MS COCO: Înțelegerea generică a imaginilor și legendele.

COIL100 : 100 de obiecte diferite imaginate la fiecare unghi într-o rotație de 360 de grade.

Visual Genome: Bază de cunoștințe vizuale foarte detaliată cu legende pentru ~100K de imagini.

Google’s Open Images: O colecție de 9 milioane de URL-uri către imagini „care au fost adnotate cu etichete care cuprind peste 6.000 de categorii” sub Creative Commons.

Labelled Faces in the Wild: 13.000 de imagini etichetate cu fețe umane, pentru a fi utilizate în dezvoltarea de aplicații care implică recunoașterea facială.

Stanford Dogs Dataset: Conține 20.580 de imagini și 120 de categorii diferite de rase de câini.

Indoor Scene Recognition: Un set de date foarte specific, util deoarece majoritatea modelelor de recunoaștere a scenelor sunt mai bune „afară”. Conține 67 de categorii de interior și un total de 15620 de imagini.

VisualQA: Acest set de date conține întrebări deschise legate de 265.016 imagini. Întrebările puse necesită o înțelegere a viziunii și a limbajului pentru a răspunde.

Seturi de date de analiză a sentimentului pentru învățare automată

Unde pot descărca seturi de date de analiză a sentimentului pentru învățare automată?

Modelele de analiză a sentimentelor necesită seturi de date mari și specializate pentru a învăța eficient. Următoarea listă ar trebui să sugereze câteva dintre modalitățile nesfârșite prin care vă puteți îmbunătăți algoritmul de analiză a sentimentelor.

Multidomain Sentiment Analysis Dataset: Un set de date puțin mai vechi care conține recenzii de produse de pe Amazon.

IMDB Reviews: Un set de date mai vechi, relativ mic pentru clasificarea binară a sentimentelor, prezintă 25.000 de recenzii de filme.

Stanford Sentiment Treebank: Set de date standard de sentiment cu adnotări de sentiment.

Sentiment140: Un set de date popular, care utilizează 160.000 de tweet-uri cu emoticoane pre-eliminate.

Twitter US Airline Sentiment: Date Twitter despre companiile aeriene din SUA din februarie 2015, clasificate ca tweet-uri pozitive, negative și neutre.

Natural Language Processing Datasets

Unde pot descărca seturi de date deschise pentru procesarea limbajului natural?

Procesarea limbajului natural este un domeniu masiv de cercetare, dar lista următoare include o gamă largă de seturi de date pentru diferite sarcini de procesare a limbajului natural, cum ar fi recunoașterea vocală și chatbots.

Enron Dataset: Date de e-mail de la conducerea superioară a Enron, organizate în dosare.

Amazon Reviews: Conține aproximativ 35 de milioane de recenzii de la Amazon pe o perioadă de 18 ani. Datele includ informații despre produs și despre utilizator, evaluări și recenzii în clar.

Google Books Ngrams: O colecție de cuvinte din Google Books.

Blogger Corpus: O colecție 681.288 de articole de blog adunate de pe blogger.com. Fiecare blog conține un minim de 200 de apariții ale unor cuvinte englezești utilizate în mod obișnuit.

Wikipedia Links Data: Textul complet al Wikipedia. Setul de date conține aproape 1,9 miliarde de cuvinte din mai mult de 4 milioane de articole. Puteți căuta după cuvânt, frază sau după o parte a unui paragraf propriu-zis.

Gutenberg eBooks List: Lista adnotată a cărților electronice de la Project Gutenberg.

Hansards Text Chunks from the Canadian Parliament: 1,3 milioane de perechi de texte din arhivele celui de-al 36-lea Parlament canadian.

Jeopardy: Arhiva a peste 200.000 de întrebări din emisiunea de quiz Jeopardy.

SMS Spam Collection in English: Un set de date care constă din 5.574 de mesaje SMS spam în limba engleză.

Yelp Reviews: Un set de date deschis lansat de Yelp, conține peste 5 milioane de recenzii.

UCI’s Spambase: Un set de date mare de e-mailuri spam, util pentru filtrarea spam-ului.

Date pentru vehicule autonome

Unde pot descărca seturi de date deschise pentru antrenarea vehiculelor autonome?

Vehiculele autonome trebuie să fie antrenate cu cantități mari de seturi de date de înaltă calitate, astfel încât să poată percepe cu acuratețe mediul înconjurător și obiectele din jur.

Berkeley DeepDrive BDD100k: În prezent, cel mai mare set de date pentru inteligența artificială pentru conducere autonomă. Conține peste 100.000 de videoclipuri de peste 1.100 de ore de experiență de conducere în diferite momente ale zilei și condiții meteorologice. Imaginile adnotate provin din zonele New York și San Francisco.

Baidu Apolloscapes: Set mare de date de imagini care definește 26 de elemente semantice diferite, cum ar fi mașini, biciclete, pietoni, clădiri, lumini stradale etc.

Comma.ai: Mai mult de 7 ore de condus pe autostradă. Detaliile includ viteza mașinii, accelerația, unghiul de virare și coordonatele GPS.

Oxford’s Robotic Car: Peste 100 de repetări ale aceluiași traseu prin Oxford, Marea Britanie, capturate pe o perioadă de un an. Setul de date surprinde diferite combinații de vreme, trafic și pietoni, împreună cu schimbări pe termen lung, cum ar fi construcțiile și lucrările rutiere.

Cityscape Dataset: Un set de date de mari dimensiuni care înregistrează scene stradale urbane din 50 de orașe diferite.

KUL Belgium Traffic Sign Dataset: Mai mult de 10000+ adnotări de semne de circulație din mii de semne de circulație distincte din punct de vedere fizic în regiunea Flandra din Belgia.

MIT AGE Lab: Un eșantion din cele peste 1000+ ore de seturi de date de conducere multisenzor colectate la AgeLab.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Acest set de date include semne de circulație, detectarea vehiculelor, semafoare și modele de traiectorie.