Les 50 meilleurs jeux de données gratuits pour l'apprentissage automatique | Lionbridge AI

Cet article est également disponible en japonais et en chinois simplifié.

Lionbridge AI a rassemblé une multitude de ressources pour les activités d’apprentissage automatique et de traitement du langage naturel. Dans nos articles précédents, nous avons expliqué pourquoi les ensembles de données font tellement partie intégrante de l’apprentissage automatique et du traitement du langage naturel. Sans jeux de données d’entraînement, les algorithmes d’apprentissage automatique n’auraient aucun moyen d’apprendre à faire de l’exploration de texte, de la classification de texte ou à catégoriser des produits.

Cet article est la liste ultime des jeux de données ouverts pour l’apprentissage automatique. Ils vont du plus vaste (en vous regardant, Kaggle) au plus spécifique, comme les nouvelles financières ou les ensembles de données de produits Amazon.

D’abord, quelques conseils rapides à garder à l’esprit lors de la recherche de jeux de données :

Recherchez des jeux de données propres parce que vous ne voulez pas perdre de temps à nettoyer les données vous-même.
Recherchez des jeux de données sans trop de lignes et de colonnes, car ceux-ci sont plus faciles à travailler.
Il doit y avoir une question intéressante à laquelle on peut répondre avec le jeu de données.

Open Dataset Finders

Où puis-je télécharger des jeux de données gratuits et ouverts pour l’apprentissage automatique ?

La meilleure façon d’apprendre l’apprentissage automatique est de s’exercer avec différents projets. Vous pouvez rechercher et télécharger des jeux de données gratuits en ligne en utilisant ces principaux chercheurs de jeux de données.

Kaggle : Un site de science des données qui contient une variété de jeux de données intéressants contribués par des tiers. Vous pouvez trouver toutes sortes de jeux de données de niche dans sa liste principale, des évaluations de ramen aux données de basket-ball et même des licences d’animaux de compagnie de Seattle.

UCI Machine Learning Repository : L’une des plus anciennes sources de jeux de données sur le web, et un excellent premier arrêt quand on cherche des jeux de données intéressants. Bien que les ensembles de données soient contribués par les utilisateurs, et ont donc des niveaux variables de propreté, la grande majorité est propre. Vous pouvez télécharger des données directement à partir du dépôt de l’UCI Machine Learning, sans inscription.

Ensembles de données gouvernementales publiques pour l’apprentissage automatique

Où puis-je télécharger des ensembles de données gouvernementales publiques pour l’apprentissage automatique ?

Les données démographiques sont un outil puissant pour améliorer le gouvernement et la société, en servant de base aux grandes décisions économiques. Les modèles d’apprentissage automatique qui ont été formés à l’aide de données gouvernementales publiques peuvent aider les décideurs à identifier les tendances et à se préparer aux problèmes liés au déclin ou à la croissance de la population, au vieillissement et à la migration.

Data.gov : Ce site permet de télécharger des données provenant de multiples agences gouvernementales américaines. Les données peuvent aller des budgets gouvernementaux aux résultats des performances scolaires. Soyez toutefois prévenu : une grande partie des données nécessite des recherches supplémentaires.

Portail de données ouvertes de l’UE : Le portail de données ouvertes de l’UE donne accès à des données ouvertes publiées par les institutions de l’UE dans des domaines aussi divers que l’économie, l’emploi, la science, l’environnement et l’éducation.

Finances des systèmes scolaires : Cet ensemble de données a été développé grâce à une enquête sur les finances des systèmes scolaires aux États-Unis.

Données sur les soins de santé aux États-Unis : Les données sur la santé de la population, les maladies, les médicaments et les plans de santé ont été collectées à partir de la base de données sur les médicaments de la FDA et de la base de données sur la composition des aliments de l’USDA dans cet ensemble de données.

Le Centre national américain pour les statistiques de l’éducation : Ce site héberge des données sur les établissements d’enseignement et les données démographiques sur l’éducation des États-Unis et du monde entier.

Le service de données du Royaume-Uni : La plus grande collection de données sociales, économiques et démographiques du Royaume-Uni se trouve ici.

Data USA : Ce site dispose d’une visualisation complète des données publiques américaines.

Finance &Ensembles de données économiques pour l’apprentissage automatique

Où puis-je télécharger des ensembles de données financières et économiques pour l’apprentissage automatique ?

L’apprentissage automatique s’avère être une opportunité en or pour le secteur financier. Les enregistrements quantitatifs financiers sont conservés pendant des décennies, de sorte que l’industrie est parfaitement adaptée à l’apprentissage automatique. En fait, l’apprentissage automatique transforme déjà la finance et la banque d’investissement pour le trading algorithmique, les prédictions boursières et la détection des fraudes. En économie, l’apprentissage automatique peut être utilisé pour tester les modèles économiques et prédire le comportement des citoyens.

Quandl : une bonne source de données économiques et financières – utile pour construire des modèles de prédiction des indicateurs économiques ou des cours boursiers.

World Bank Open Data : Ensembles de données couvrant la démographie de la population et un très grand nombre d’indicateurs économiques et de développement à travers le monde.

Données du FMI : Le Fonds monétaire international publie des données sur les finances internationales, les taux d’endettement, les réserves de change, les prix des matières premières et les investissements.

Financial Times Market Data : Des informations actualisées sur les marchés financiers du monde entier, notamment les indices boursiers, les matières premières et les devises.

Google Trends : Examinez et analysez les données sur l’activité de recherche sur Internet et les nouvelles tendances dans le monde entier.

American Economic Association (AEA) : Une bonne source pour trouver des données macroéconomiques américaines.

Ensembles de données d’images pour la vision par ordinateur

Où puis-je télécharger des ensembles de données d’images pour la vision par ordinateur ?

Les jeux de données d’images sont utiles pour la formation d’un large éventail d’applications de vision par ordinateur, telles que la technologie d’imagerie médicale, les véhicules autonomes et la reconnaissance des visages.

Labelme : Un grand ensemble de données d’images annotées.

ImageNet : Le jeu de données d’images de facto pour les nouveaux algorithmes. Est organisé selon la hiérarchie WordNet, dans laquelle chaque nœud de la hiérarchie est représenté par des centaines et des milliers d’images.

LSUN : Compréhension de scènes avec de nombreuses tâches annexes (estimation de la disposition des pièces, prédiction de la saillance, etc.)

MS COCO : Compréhension d’images génériques et légendage.

COIL100 : 100 objets différents imagés sous tous les angles dans une rotation de 360.

Génome visuel : Base de connaissances visuelles très détaillée avec légendes de ~100K images.

Google’s Open Images : Une collection de 9 millions d’URL d’images « qui ont été annotées avec des étiquettes couvrant plus de 6 000 catégories » sous Creative Commons.

Labelled Faces in the Wild : 13 000 images étiquetées de visages humains, à utiliser dans le développement d’applications impliquant la reconnaissance faciale.

Stanford Dogs Dataset : Contient 20 580 images et 120 catégories de races de chiens différentes.

Reconnaissance de scènes d’intérieur : Un jeu de données très spécifique, utile car la plupart des modèles de reconnaissance de scènes sont meilleurs ‘à l’extérieur’. Contient 67 catégories d’intérieur, et un total de 15620 images.

VisualQA : Ce jeu de données contient des questions ouvertes liées à 265 016 images. Les questions posées nécessitent une compréhension de la vision et du langage pour y répondre.

Jeux de données d’analyse des sentiments pour l’apprentissage automatique

Où puis-je télécharger des jeux de données d’analyse des sentiments pour l’apprentissage automatique ?

Les modèles d’analyse des sentiments nécessitent de grands ensembles de données spécialisés pour apprendre efficacement. La liste suivante devrait donner un aperçu de quelques-unes des infinies façons dont vous pouvez améliorer votre algorithme d’analyse des sentiments.

Données d’analyse des sentiments multidomaines : Un ensemble de données légèrement plus ancien qui présente des critiques de produits provenant d’Amazon.

MIMDB Reviews : Un jeu de données plus ancien et relativement petit pour la classification binaire des sentiments, présente 25 000 critiques de films.

Stanford Sentiment Treebank : Jeu de données de sentiment standard avec des annotations de sentiment.

Sentiment140 : Un jeu de données populaire, qui utilise 160 000 tweets dont les émoticônes ont été préalablement supprimées.

Twitter US Airline Sentiment : Données Twitter sur les compagnies aériennes américaines de février 2015, classées en tweets positifs, négatifs et neutres.

Données de traitement du langage naturel

Où puis-je télécharger des ensembles de données ouvertes pour le traitement du langage naturel ?

Le traitement du langage naturel est un domaine de recherche massif, mais la liste suivante comprend un large éventail de jeux de données pour différentes tâches de traitement du langage naturel, telles que la reconnaissance vocale et les chatbots.

Enron Dataset : Données de courriels de la haute direction d’Enron, organisées en dossiers.

Amazon Reviews : Contient environ 35 millions d’évaluations d’Amazon couvrant 18 ans. Les données comprennent des informations sur les produits et les utilisateurs, des évaluations et l’avis en texte clair.

Google Books Ngrams : Une collection de mots provenant de Google books.

Blogger Corpus : Une collection 681 288 billets de blogue recueillis à partir de blogger.com. Chaque blog contient un minimum de 200 occurrences de mots anglais couramment utilisés.

Données de liens Wikipédia : Le texte intégral de Wikipédia. L’ensemble de données contient près de 1,9 milliard de mots provenant de plus de 4 millions d’articles. Vous pouvez effectuer une recherche par mot, par phrase ou par partie d’un paragraphe lui-même.

La liste des livres électroniques de Gutenberg : Liste annotée des ebooks du Projet Gutenberg.

Hansards Text Chunks from the Canadian Parliament : 1,3 million de paires de textes provenant des archives du 36e Parlement canadien.

Jeopardy : Archive de plus de 200 000 questions du jeu télévisé Jeopardy.

Collection de pourriels par SMS en anglais : Un jeu de données qui se compose de 5 574 messages de spam SMS en anglais.

Yelp Reviews : Un jeu de données ouvert publié par Yelp, contient plus de 5 millions d’avis.

Spambase de l’UCI : Un grand jeu de données de courriers électroniques non sollicités, utile pour le filtrage du spam.

Jeux de données pour les véhicules autonomes

Où puis-je télécharger des jeux de données ouverts pour la formation des véhicules autonomes ?

Les véhicules autonomes doivent être entraînés avec de grandes quantités de jeux de données de haute qualité afin qu’ils puissent percevoir avec précision leur environnement et les objets environnants.

Berkeley DeepDrive BDD100k : actuellement le plus grand jeu de données pour l’IA de conduite autonome. Contient plus de 100 000 vidéos de plus de 1 100 heures de conduite à différents moments de la journée et dans différentes conditions météorologiques. Les images annotées proviennent des régions de New York et de San Francisco.

Baidu Apolloscapes : Grand jeu de données d’images qui définit 26 éléments sémantiques différents tels que des voitures, des vélos, des piétons, des bâtiments, des lampadaires, etc.

Comma.ai : Plus de 7 heures de conduite sur autoroute. Les détails comprennent la vitesse de la voiture, l’accélération, l’angle de braquage et les coordonnées GPS.

Voiture robotisée d’Oxford : Plus de 100 répétitions du même itinéraire à travers Oxford, au Royaume-Uni, capturées sur une période d’un an. L’ensemble de données capture différentes combinaisons de conditions météorologiques, de trafic et de piétons, ainsi que des changements à long terme tels que la construction et les travaux routiers.

Cityscape Dataset : Un grand ensemble de données qui enregistre les scènes de rues urbaines dans 50 villes différentes.

KUL Belgium Traffic Sign Dataset : Plus de 10000+ annotations de panneaux de signalisation provenant de milliers de panneaux de signalisation physiquement distincts dans la région de la Flandre en Belgique.

MIT AGE Lab : Un échantillon des plus de 1000 heures de jeux de données de conduite multi-capteurs collectés au AgeLab.

LISA : Laboratoire pour des automobiles intelligentes &sûres, UC San Diego Datasets : Cet ensemble de données comprend les panneaux de signalisation, la détection des véhicules, les feux de circulation et les modèles de trajectoire.