I 50 migliori dataset gratuiti per l'apprendimento automatico | Lionbridge AI

Questo articolo è disponibile anche in giapponese e in cinese semplificato.

Lionbridge AI ha raccolto una ricchezza di risorse per le attività di apprendimento automatico e di elaborazione del linguaggio naturale. Nei nostri articoli precedenti, abbiamo spiegato perché i dataset sono parte integrante dell’apprendimento automatico e dell’elaborazione del linguaggio naturale. Senza i set di dati di addestramento, gli algoritmi di apprendimento automatico non avrebbero modo di imparare come fare text mining, classificazione del testo, o categorizzare i prodotti.

Questo articolo è l’ultima lista di set di dati aperti per l’apprendimento automatico. Vanno dai più vasti (guardandoti, Kaggle) a quelli altamente specifici, come le notizie finanziarie o i set di dati dei prodotti Amazon.

Prima di tutto, alcune indicazioni veloci da tenere a mente quando si cercano set di dati:

Cercate set di dati puliti perché non volete perdere tempo a pulire i dati da soli.
Cercate dataset senza troppe righe e colonne, perché sono più facili da lavorare.
Ci dovrebbe essere una domanda interessante a cui si può rispondere con il dataset.

Open Dataset Finders

Dove posso scaricare dataset gratuiti e aperti per il machine learning?

Il modo migliore per imparare il machine learning è fare pratica con diversi progetti. Puoi cercare e scaricare set di dati gratuiti online usando questi principali cercatori di dati.

Kaggle: Un sito di scienza dei dati che contiene una varietà di set di dati interessanti forniti dall’esterno. È possibile trovare tutti i tipi di set di dati di nicchia nella sua lista principale, dalle valutazioni del ramen ai dati del basket e persino alle licenze per gli animali domestici di Seattle.

UCI Machine Learning Repository: Una delle più antiche fonti di set di dati sul web, e una grande prima fermata quando si cercano set di dati interessanti. Anche se i set di dati sono forniti dagli utenti, e quindi hanno vari livelli di pulizia, la maggior parte sono puliti. Puoi scaricare i dati direttamente dal repository UCI Machine Learning, senza registrazione.

Dati del governo pubblico per l’apprendimento automatico

Dove posso scaricare i dati del governo pubblico per l’apprendimento automatico?

I dati demografici sono un potente strumento per migliorare il governo e la società, servendo come base per importanti decisioni economiche. I modelli di apprendimento automatico che sono stati addestrati utilizzando i dati del governo pubblico possono aiutare i responsabili politici a identificare le tendenze e prepararsi per le questioni relative al declino o alla crescita della popolazione, all’invecchiamento e alla migrazione.

Data.gov: Questo sito permette di scaricare dati da più agenzie governative degli Stati Uniti. I dati possono variare dai bilanci del governo ai punteggi delle prestazioni scolastiche. Attenzione però: molti dei dati richiedono ulteriori ricerche.

EU Open Data Portal: L’EU Open Data Portal fornisce l’accesso ai dati aperti pubblicati dalle istituzioni dell’UE in campi diversi come l’economia, l’occupazione, la scienza, l’ambiente e l’istruzione.

School System Finances: Questo set di dati è stato sviluppato attraverso un’indagine sulle finanze dei sistemi scolastici negli Stati Uniti.

US Healthcare Data: I dati sulla salute della popolazione, le malattie, i farmaci e i piani sanitari sono stati raccolti dal database dei farmaci dell’FDA e dal database della composizione degli alimenti dell’USDA in questo dataset.

Il Centro nazionale statunitense per le statistiche dell’istruzione: Questo sito ospita dati sulle istituzioni educative e sui dati demografici dell’istruzione degli Stati Uniti e di tutto il mondo.

Il servizio dati del Regno Unito: La più grande raccolta di dati sociali, economici e demografici del Regno Unito può essere trovata qui.

Data USA: Questo sito ha una visualizzazione completa dei dati pubblici degli Stati Uniti.

Finanza & Datasets economici per l’apprendimento automatico

Dove posso scaricare datasets finanziari ed economici per l’apprendimento automatico?

L’apprendimento automatico si sta rivelando un’opportunità d’oro per il settore finanziario. I record quantitativi finanziari sono conservati per decenni, quindi il settore è perfettamente adatto al machine learning. Infatti, il machine learning sta già trasformando la finanza e l’investment banking per il trading algoritmico, le previsioni del mercato azionario e il rilevamento delle frodi. In economia, il machine learning può essere usato per testare modelli economici e prevedere il comportamento dei cittadini.

Quandl: Una buona fonte di dati economici e finanziari – utile per costruire modelli per prevedere indicatori economici o prezzi delle azioni.

World Bank Open Data: Set di dati che coprono la demografia della popolazione e un gran numero di indicatori economici e di sviluppo da tutto il mondo.

Dati FMI: Il Fondo Monetario Internazionale pubblica dati sulle finanze internazionali, tassi di debito, riserve di valuta estera, prezzi delle materie prime e investimenti.

Financial Times Market Data: Informazioni aggiornate sui mercati finanziari di tutto il mondo, compresi gli indici dei prezzi delle azioni, delle materie prime e dei cambi.

Google Trends: Esamina e analizza i dati sull’attività di ricerca su internet e le notizie di tendenza in tutto il mondo.

American Economic Association (AEA): Una buona fonte per trovare dati macroeconomici degli Stati Uniti.

Image Datasets for Computer Vision

Dove posso scaricare datasets di immagini per la computer vision?

I dataset di immagini sono utili per la formazione di una vasta gamma di applicazioni di computer vision, come la tecnologia di imaging medico, i veicoli autonomi e il riconoscimento dei volti.

Labelme: Un grande set di dati di immagini annotate.

ImageNet: Il dataset di immagini de-facto per i nuovi algoritmi. È organizzato secondo la gerarchia WordNet, in cui ogni nodo della gerarchia è rappresentato da centinaia e migliaia di immagini.

LSUN: Comprensione della scena con molti compiti ausiliari (stima della disposizione della stanza, predizione della salienza, ecc.)

MS COCO: Comprensione generica delle immagini e sottotitolazione.

COIL100: 100 oggetti diversi ripresi ad ogni angolo in una rotazione di 360.

Visual Genome: Base di conoscenza visiva molto dettagliata con didascalie di ~100K immagini.

Google’s Open Images: Una collezione di 9 milioni di URL di immagini “che sono state annotate con etichette che abbracciano oltre 6.000 categorie” sotto Creative Commons.

Labelled Faces in the Wild: 13.000 immagini etichettate di volti umani, da usare per sviluppare applicazioni che coinvolgono il riconoscimento facciale.

Stanford Dogs Dataset: Contiene 20.580 immagini e 120 diverse categorie di razze canine.

Indoor Scene Recognition: Un dataset molto specifico, utile perché la maggior parte dei modelli di riconoscimento delle scene sono migliori all’esterno. Contiene 67 categorie di interni e un totale di 15620 immagini.

VisualQA: Questo set di dati contiene domande a risposta aperta relative a 265.016 immagini. Le domande poste richiedono una comprensione della visione e del linguaggio per rispondere.

Sentiment Analysis Datasets for Machine Learning

Dove posso scaricare i datasets di sentiment analysis per il machine learning?

I modelli di analisi del sentimento richiedono grandi set di dati specializzati per imparare efficacemente. La seguente lista dovrebbe suggerire alcuni degli infiniti modi in cui puoi migliorare il tuo algoritmo di analisi del sentimento.

Multidomain Sentiment Analysis Dataset: Un dataset leggermente più vecchio che presenta recensioni di prodotti da Amazon.

IMDB Reviews: Un dataset più vecchio e relativamente piccolo per la classificazione binaria del sentimento, contiene 25.000 recensioni di film.

Stanford Sentiment Treebank: Set di dati standard sul sentimento con annotazioni sul sentimento.

Sentiment140: Un popolare set di dati, che utilizza 160.000 tweet con emoticon pre-rimosse.

Twitter US Airline Sentiment: Dati di Twitter sulle compagnie aeree statunitensi da febbraio 2015, classificati come tweet positivi, negativi e neutri.

Natural Language Processing Datasets

Dove posso scaricare datasets aperti per l’elaborazione del linguaggio naturale?

L’elaborazione del linguaggio naturale è un campo di ricerca enorme, ma la seguente lista include una vasta gamma di set di dati per diversi compiti di elaborazione del linguaggio naturale, come il riconoscimento vocale e i chatbot.

Enron Dataset: Dati di posta elettronica dal senior management di Enron, organizzati in cartelle.

Amazon Reviews: Contiene circa 35 milioni di recensioni da Amazon che coprono 18 anni. I dati includono informazioni sul prodotto e sull’utente, valutazioni e la recensione in chiaro.

Google Books Ngrams: Una raccolta di parole da Google books.

Blogger Corpus: Una collezione di 681.288 post di blog raccolti da blogger.com. Ogni blog contiene un minimo di 200 occorrenze di parole inglesi di uso comune.

Wikipedia Links Data: Il testo completo di Wikipedia. Il set di dati contiene quasi 1,9 miliardi di parole da più di 4 milioni di articoli. È possibile cercare per parola, frase o parte di un paragrafo stesso.

Lista degli eBooks di Gutenberg: Lista commentata di ebooks dal Progetto Gutenberg.

Hansards Text Chunks from the Canadian Parliament: 1,3 milioni di coppie di testi dagli archivi del 36° Parlamento canadese.

Jeopardy: Archivio di più di 200.000 domande dal quiz show Jeopardy.

Raccolta di Spam in inglese: Un dataset che consiste in 5.574 messaggi di spam SMS in inglese.

Yelp Reviews: Un dataset aperto rilasciato da Yelp, contiene più di 5 milioni di recensioni.

UCI’s Spambase: Un grande dataset di email di spam, utile per il filtraggio dello spam.

Datasets per veicoli autonomi

Dove posso scaricare datasets aperti per la formazione di veicoli autonomi?

I veicoli autonomi hanno bisogno di essere addestrati con grandi quantità di set di dati di alta qualità in modo che possano percepire accuratamente il loro ambiente e gli oggetti circostanti.

Berkeley DeepDrive BDD100k: Attualmente il più grande set di dati per l’AI di guida autonoma. Contiene oltre 100.000 video di oltre 1.100 ore di esperienze di guida in diversi momenti della giornata e condizioni meteorologiche. Le immagini annotate provengono dalle aree di New York e San Francisco.

Baidu Apolloscapes: Grande dataset di immagini che definisce 26 diversi elementi semantici come auto, biciclette, pedoni, edifici, luci stradali, ecc.

Comma.ai: Più di 7 ore di guida in autostrada. I dettagli includono la velocità dell’auto, l’accelerazione, l’angolo di sterzata e le coordinate GPS.

L’auto robotica di Oxford: Oltre 100 ripetizioni dello stesso percorso attraverso Oxford, Regno Unito, catturate nell’arco di un anno. Il set di dati cattura diverse combinazioni di tempo, traffico e pedoni, insieme a cambiamenti a lungo termine come la costruzione e i lavori stradali.

Cityscape Dataset: Un grande dataset che registra scene di strade urbane in 50 città diverse.

KUL Belgium Traffic Sign Dataset: Più di 10000+ annotazioni di segnali stradali da migliaia di segnali stradali fisicamente distinti nella regione delle Fiandre in Belgio.

MIT AGE Lab: Un campione delle oltre 1.000 ore di set di dati di guida multi-sensore raccolti all’AgeLab.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Questo set di dati include segnali stradali, rilevamento di veicoli, semafori e modelli di traiettoria.

LISA: Laboratorio per l’Intelligenza &Automobili Sicure.