Die 50 besten kostenlosen Datensätze für maschinelles Lernen | Lionbridge AI

Dieser Artikel ist auch in Japanisch und vereinfachtem Chinesisch verfügbar.

Lionbridge AI hat eine Vielzahl von Ressourcen für maschinelles Lernen und die Verarbeitung natürlicher Sprache zusammengestellt. In unseren früheren Artikeln haben wir erläutert, warum Datensätze ein wesentlicher Bestandteil des maschinellen Lernens und der Verarbeitung natürlicher Sprache sind. Ohne Trainingsdatensätze könnten die Algorithmen für maschinelles Lernen nicht lernen, wie man Text Mining und Textklassifizierung durchführt oder Produkte kategorisiert.

Dieser Artikel ist die ultimative Liste der offenen Datensätze für maschinelles Lernen. Sie reichen von umfangreichen (ich schaue dich an, Kaggle) bis hin zu sehr spezifischen, wie Finanznachrichten oder Amazon-Produktdatensätze.

Zunächst einige kurze Hinweise, die Sie bei der Suche nach Datensätzen beachten sollten:

Suchen Sie nach sauberen Datensätzen, denn Sie wollen keine Zeit damit verschwenden, die Daten selbst zu bereinigen.
Suchen Sie nach Datensätzen ohne zu viele Zeilen und Spalten, da diese leichter zu bearbeiten sind.
Es sollte eine interessante Frage geben, die mit dem Datensatz beantwortet werden kann.

Open Dataset Finders

Wo kann ich freie, offene Datensätze für maschinelles Lernen herunterladen?

Der beste Weg, maschinelles Lernen zu lernen, ist, mit verschiedenen Projekten zu üben. Mit diesen großen Datensatz-Suchmaschinen können Sie kostenlose Datensätze online suchen und herunterladen.

Kaggle: Eine Data-Science-Website, die eine Vielzahl interessanter Datensätze enthält, die von Dritten zur Verfügung gestellt werden. In der Masterliste finden Sie alle Arten von Nischendatensätzen, von Ramen-Bewertungen über Basketballdaten bis hin zu Lizenzen für Haustiere aus Seattle.

UCI Machine Learning Repository: Eine der ältesten Quellen für Datensätze im Web und eine gute erste Anlaufstelle bei der Suche nach interessanten Datensätzen. Obwohl die Datensätze von Nutzern zur Verfügung gestellt werden und daher unterschiedlich sauber sind, ist die überwiegende Mehrheit sauber. Sie können die Daten direkt vom UCI-Repository für maschinelles Lernen herunterladen, ohne sich zu registrieren.

Öffentliche Regierungsdaten für maschinelles Lernen

Wo kann ich öffentliche Regierungsdaten für maschinelles Lernen herunterladen?

Demografische Daten sind ein mächtiges Instrument zur Verbesserung von Staat und Gesellschaft, da sie als Grundlage für wichtige wirtschaftliche Entscheidungen dienen. Modelle des maschinellen Lernens, die mit öffentlichen Regierungsdaten trainiert wurden, können politischen Entscheidungsträgern helfen, Trends zu erkennen und sich auf Probleme im Zusammenhang mit Bevölkerungsrückgang oder -wachstum, Alterung und Migration vorzubereiten.

Data.gov: Auf dieser Website können Daten von mehreren US-Regierungsstellen heruntergeladen werden. Die Daten reichen von Regierungshaushalten bis hin zu Schulleistungsergebnissen. Seien Sie jedoch gewarnt: Viele der Daten erfordern zusätzliche Recherchen.

EU Open Data Portal: Das EU Open Data Portal bietet Zugang zu offenen Daten, die von EU-Institutionen in so unterschiedlichen Bereichen wie Wirtschaft, Beschäftigung, Wissenschaft, Umwelt und Bildung veröffentlicht werden.

School System Finances: Dieser Datensatz wurde durch eine Erhebung der Finanzen von Schulsystemen in den USA entwickelt.

US Healthcare Data: In diesem Datensatz wurden Daten zur Gesundheit der Bevölkerung, zu Krankheiten, Arzneimitteln und Gesundheitsplänen aus der Arzneimitteldatenbank der FDA und der Datenbank zur Lebensmittelzusammensetzung des USDA gesammelt.

Das US National Center for Education Statistics: Diese Website enthält Daten über Bildungseinrichtungen und Bildungsdemografien aus den USA und der ganzen Welt.

Der UK Data Service: Die größte Sammlung sozialer, wirtschaftlicher und bevölkerungsbezogener Daten Großbritanniens ist hier zu finden.

Data USA: Diese Website bietet eine umfassende Visualisierung öffentlicher US-Daten.

Finance & Economics Datasets for Machine Learning

Wo kann ich Finanz- und Wirtschaftsdatensätze für maschinelles Lernen herunterladen?

Das maschinelle Lernen erweist sich als eine große Chance für den Finanzsektor. Quantitative Finanzdaten werden jahrzehntelang aufbewahrt, so dass sich die Branche perfekt für maschinelles Lernen eignet. Tatsächlich verändert das maschinelle Lernen bereits das Finanz- und Investmentbanking für den algorithmischen Handel, Börsenprognosen und die Betrugserkennung. In der Wirtschaft kann maschinelles Lernen dazu verwendet werden, Wirtschaftsmodelle zu testen und das Verhalten der Bürger vorherzusagen.

Quandl: Eine gute Quelle für Wirtschafts- und Finanzdaten – nützlich für die Erstellung von Modellen zur Vorhersage von Wirtschaftsindikatoren oder Aktienkursen.

World Bank Open Data: Datensätze zur Bevölkerungsdemografie und eine große Anzahl von Wirtschafts- und Entwicklungsindikatoren aus der ganzen Welt.

IMF Data: Der Internationale Währungsfonds veröffentlicht Daten zu internationalen Finanzen, Schuldenraten, Devisenreserven, Rohstoffpreisen und Investitionen.

Financial Times Market Data: Aktuelle Informationen zu den Finanzmärkten aus aller Welt, einschließlich Aktienkursindizes, Rohstoffen und Devisen.

Google Trends: Untersuchen und analysieren Sie Daten über Internet-Suchaktivitäten und aktuelle Nachrichten aus aller Welt.

American Economic Association (AEA): Eine gute Quelle, um makroökonomische Daten der USA zu finden.

Bilddatensätze für Computer Vision

Wo kann ich Bilddatensätze für Computer Vision herunterladen?

Bilddatensätze sind nützlich für das Training einer Vielzahl von Computer-Vision-Anwendungen, wie z.B. medizinische Bildgebungstechnologie, autonome Fahrzeuge und Gesichtserkennung.

Labelme: Ein großer Datensatz mit beschrifteten Bildern.

ImageNet: Der de-facto-Bilddatensatz für neue Algorithmen. Ist entsprechend der WordNet-Hierarchie organisiert, wobei jeder Knoten der Hierarchie durch Hunderte und Tausende von Bildern dargestellt wird.

LSUN: Szeneverständnis mit vielen Zusatzaufgaben (Schätzung der Raumaufteilung, Vorhersage der Bedeutung usw.)

MS COCO: Generisches Bildverständnis und Beschriftung.

COIL100 : 100 verschiedene Objekte, die in jedem Winkel in einer 360°-Drehung abgebildet werden.

Visual Genome: Sehr detaillierte visuelle Wissensbasis mit Beschriftung von ~100K Bildern.

Google’s Open Images: Eine Sammlung von 9 Millionen URLs zu Bildern, „die mit Beschriftungen aus über 6.000 Kategorien versehen wurden“ unter Creative Commons.

Labelled Faces in the Wild: 13.000 beschriftete Bilder von menschlichen Gesichtern, zur Verwendung bei der Entwicklung von Anwendungen, die Gesichtserkennung beinhalten.

Stanford Dogs Dataset: Enthält 20.580 Bilder und 120 verschiedene Kategorien von Hunderassen.

Indoor Scene Recognition: Ein sehr spezifischer Datensatz, der nützlich ist, da die meisten Modelle zur Szenenerkennung „draußen“ besser sind. Enthält 67 Kategorien für Innenräume und insgesamt 15620 Bilder.

VisualQA: Dieser Datensatz enthält offene Fragen, die sich auf 265.016 Bilder beziehen. Für die Beantwortung der Fragen ist ein Verständnis des Sehens und der Sprache erforderlich.

Sentiment Analysis Datasets for Machine Learning

Wo kann ich Sentiment Analysis Datasets for Machine Learning herunterladen?

Sentiment-Analyse-Modelle benötigen große, spezialisierte Datensätze, um effektiv zu lernen. Die folgende Liste soll Ihnen einige der unzähligen Möglichkeiten aufzeigen, wie Sie Ihren Sentiment-Analyse-Algorithmus verbessern können.

Multidomain Sentiment Analysis Dataset: Ein etwas älterer Datensatz, der Produktbewertungen von Amazon enthält.

IMDB Reviews: Ein älterer, relativ kleiner Datensatz für die binäre Sentiment-Klassifizierung, enthält 25.000 Filmkritiken.

Stanford Sentiment Treebank: Standard-Sentiment-Datensatz mit Sentiment-Annotationen.

Sentiment140: Ein beliebter Datensatz, der 160.000 Tweets verwendet, bei denen Emoticons vorab entfernt wurden.

Twitter US Airline Sentiment: Twitter-Daten zu US-Fluggesellschaften vom Februar 2015, klassifiziert als positive, negative und neutrale Tweets.

Datensätze zur Verarbeitung natürlicher Sprache

Wo kann ich offene Datensätze zur Verarbeitung natürlicher Sprache herunterladen?

Natürliche Sprachverarbeitung ist ein riesiges Forschungsgebiet, aber die folgende Liste enthält eine breite Palette von Datensätzen für verschiedene Aufgaben der natürlichen Sprachverarbeitung, wie z.B. Spracherkennung und Chatbots.

Enron Dataset: E-Mail-Daten der Geschäftsleitung von Enron, organisiert in Ordnern.

Amazon Reviews: Enthält rund 35 Millionen Bewertungen von Amazon aus 18 Jahren. Die Daten umfassen Produkt- und Benutzerinformationen, Bewertungen und den Klartext der Rezension.

Google Books Ngrams: Eine Sammlung von Wörtern aus Google Books.

Blogger Corpus: Eine Sammlung von 681.288 Blog-Beiträgen, die von blogger.com gesammelt wurden. Jeder Blog enthält mindestens 200 Vorkommen von häufig verwendeten englischen Wörtern.

Wikipedia Links Data: Der vollständige Text von Wikipedia. Der Datensatz enthält fast 1,9 Milliarden Wörter aus mehr als 4 Millionen Artikeln. Sie können nach Wörtern, Phrasen oder Teilen eines Absatzes suchen.

Gutenberg eBooks List: Kommentierte Liste der eBooks von Project Gutenberg.

Hansards Text Chunks from the Canadian Parliament: 1,3 Millionen Textpaare aus den Akten des 36. kanadischen Parlaments.

Jeopardy: Archiv mit mehr als 200.000 Fragen aus der Quizshow Jeopardy.

SMS Spam Collection in English: Ein Datensatz, der aus 5.574 englischen SMS-Spam-Nachrichten besteht.

Yelp Reviews: Ein offener Datensatz, der von Yelp veröffentlicht wurde und mehr als 5 Millionen Bewertungen enthält.

UCI’s Spambase: Ein großer Datensatz für Spam-E-Mails, nützlich für die Spam-Filterung.

Datensätze für autonome Fahrzeuge

Wo kann ich offene Datensätze für das Training autonomer Fahrzeuge herunterladen?

Autonome Fahrzeuge müssen mit großen Mengen hochwertiger Datensätze trainiert werden, damit sie ihre Umgebung und die sie umgebenden Objekte genau wahrnehmen können.

Berkeley DeepDrive BDD100k: Der derzeit größte Datensatz für selbstfahrende KI. Enthält über 100.000 Videos von über 1.100 Stunden Fahrpraxis zu verschiedenen Tageszeiten und Wetterbedingungen. Die kommentierten Bilder stammen aus den Gebieten New York und San Francisco.

Baidu Apolloscapes: Großer Bilddatensatz, der 26 verschiedene semantische Elemente wie Autos, Fahrräder, Fußgänger, Gebäude, Straßenlampen usw. definiert.

Comma.ai: Mehr als 7 Stunden Fahrt auf der Autobahn. Zu den Details gehören Geschwindigkeit, Beschleunigung, Lenkwinkel und GPS-Koordinaten.

Oxford’s Robotic Car: Über 100 Wiederholungen der gleichen Route durch Oxford, Großbritannien, aufgenommen über einen Zeitraum von einem Jahr. Der Datensatz erfasst verschiedene Kombinationen von Wetter, Verkehr und Fußgängern sowie langfristige Veränderungen wie Bauarbeiten und Baustellen.

Cityscape Dataset: Ein großer Datensatz, der städtische Straßenszenen in 50 verschiedenen Städten erfasst.

KUL Belgium Traffic Sign Dataset: Mehr als 10000+ Verkehrsschildkommentare von Tausenden von physisch unterschiedlichen Verkehrsschildern in der Region Flandern in Belgien.

MIT AGE Lab: Eine Auswahl der über 1.000 Stunden an Multisensor-Fahrdaten, die im AgeLab gesammelt wurden.

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: Dieser Datensatz umfasst Verkehrszeichen, Fahrzeugerkennung, Ampeln und Trajektorienmuster.