The 50 Best Free Datasets for Machine Learning｜Lionbridge AI

この記事は日本語と簡体字中国語でもご覧いただけます。

Lionbridge AIは機械学習と自然言語処理活動のためのリソースを豊富に集めています。以前の記事では、データセットがなぜ機械学習と自然言語処理に不可欠な部分であるかを説明しました。学習用データセットがなければ、機械学習アルゴリズムは、テキストマイニング、テキスト分類、または製品の分類を行う方法を学習する方法がないのです。データセットを検索する際に念頭に置いておくべき簡単なポインターをいくつか紹介します：

データを自分でクリーニングして時間を浪費したくないので、クリーンなデータセットを探します。
データセットで答えられる興味深い質問があること。

Open Dataset Finders

機械学習用の無料のオープンデータセットをどこでダウンロードできますか？

機械学習を学ぶ最善の方法は、異なるプロジェクトで練習することです。これらの主要なデータセット検索ツールを使用して、オンラインで無料のデータセットを検索し、ダウンロードすることができます。外部から提供されたさまざまな興味深いデータセットを含む、データサイエンスサイトです。ラーメンの評価やバスケットボールのデータ、シアトルのペットのライセンスなど、あらゆるニッチなデータセットをマスターリストで見つけることができます。ウェブ上で最も古いデータセットソースのひとつで、興味深いデータセットを探すときに最初に立ち寄る場所として最適です。データセットはユーザが投稿したもので、そのクリーン度はまちまちですが、大半はクリーンです。

Public Government Datasets for Machine Learning

Where can I download public government datasets for machine learning?

人口統計データは、主要な経済的意思決定の基礎となることで、政府や社会を改善するための強力なツールになります。公共政府のデータを使用してトレーニングされた機械学習モデルは、政策立案者が傾向を特定し、人口の減少または増加、高齢化、および移住に関連する問題に備えるのに役立ちます。

Data.gov: このサイトでは、複数の米国政府機関からデータをダウンロードすることができます。政府の予算から学校の成績まで、さまざまなデータをダウンロードすることができます。しかし、多くのデータは追加の調査を必要とするので、注意してください。 EU Open Data Portal では、経済、雇用、科学、環境、教育など様々な分野で EU 機関が公開しているオープンデータにアクセスすることができます。米国の学校システムの財政調査により作成されたデータセット。 FDAの医薬品データベースとUSDAの食品成分データベースから、国民の健康状態、疾病、医薬品、医療計画に関するデータを収集したデータセットです。米国および世界の教育機関や教育人口統計に関するデータを掲載しています。

The UK Data Service:

The UK Data Service: イギリス最大の社会、経済、人口データのコレクション。

Data USA: アメリカの公共データを包括的に視覚化したサイト。

Finance & Economics Datasets for Machine Learning

Where can I download finance and economics datasets for machine learning?

機械学習は、金融セクターにとって絶好の機会であることが証明されています。金融の定量的な記録は何十年も保管されるため、この業界は機械学習に完全に適しています。実際、機械学習はアルゴリズム取引、株式市場の予測、詐欺の検出など、すでに金融や投資銀行を変革しています。経済学では、機械学習は経済モデルのテストや市民の行動の予測に使用できます。

Quandl: 経済および金融データの優れたソースで、経済指標や株価を予測するモデルを構築するのに便利です。人口統計や、世界中の膨大な数の経済・開発指標を網羅したデータセット。国際通貨基金（IMF）は、国際金融、債務率、外貨準備、商品価格、投資に関するデータを公開しています。株価指数、商品、為替など、世界中の金融市場に関する最新情報を提供します。

Google トレンド。

American Economic Association (AEA)：インターネット検索活動や世界中のトレンドニュースに関するデータを調査・分析します。

Image Datasets for Computer Vision

Where can I download image datasets for computer vision?

画像データセットは、医療画像技術、自律走行車、顔認識など、さまざまなコンピュータビジョンアプリケーションの学習に役立ちます。

Labelme: 注釈付きイメージの大規模データセット。新しいアルゴリズムのためのデファクトの画像データセット。

LSUN: 多くの補助的なタスク(部屋のレイアウト推定、顕著性予測など)を含むシーン理解

MS COCO: 一般的な画像理解とキャプション付け

COIL100: 100種類のオブジェクトを360回転であらゆる角度で画像化

Visual Genome.VI : 画像理解、キャプション付け、画像解析のためのデータセット MS Coco : 画像理解、キャプション付けのためのデータセット

LSUN:シーン理解。非常に詳細なビジュアル知識ベースで、~100K イメージのキャプション付き.

Google’s Open Images:

Labelled Faces in the Wild: 13,000 枚の人間の顔の画像にラベルを付け、顔認識アプリケーションの開発に使用。 20,580のイメージと120の犬種カテゴリを含む。

Indoor Scene Recognition: 非常に特殊なデータセットで、ほとんどのシーン認識モデルが「屋外」で優れているため、有用である。 67の屋内カテゴリと、合計15620枚の画像を含む。

VisualQA。 265,016枚の画像に関する自由形式の質問からなるデータセットである。

Sentiment Analysis Datasets for Machine Learning

Sentiment Analysis Datasets for Machine Learningはどこでダウンロードできるのですか？

感情分析モデルが効果的に学習するには、大規模で専門的なデータセットが必要です。次のリストは、センチメント分析アルゴリズムを改善するための無限の方法のいくつかを示唆しています。

Multidomain Sentiment Analysis Dataset。 Amazon の製品レビューを特徴とする少し古いデータセット。

IMDB Reviews。バイナリ感情分類のための古い、比較的小さなデータセットで、25,000 件の映画レビューを特徴としています。センチメントアノテーションを持つ標準的なセンチメントデータセットです。 160,000 のツイートからエモーティコンを削除したデータセット。

Natural Language Processing Datasets

Where can I download open datasets for natural language processing?

自然言語処理は巨大な研究分野ですが、以下のリストには、音声認識やチャットボットなど、さまざまな自然言語処理タスクのデータセットが幅広く含まれています。

Enron Dataset: Enronの上級管理職のメールデータをフォルダ分けしたもの。

Amazon Reviews: Amazonの18年間にわたる約3500万件のレビューが含まれています。商品情報、ユーザー情報、評価、そして平文のレビューが含まれています。

Google Books Ngrams。 Google Books の単語を集めたもの。

Blogger Corpus。 blogger.comから収集した681,288件のブログ記事を集めたもの。各ブログには、一般的に使用される英単語が最低200回含まれています。

Wikipedia Links Data: Wikipediaの全文。 400万以上の記事から約19億語が収録されています。単語、フレーズ、パラグラフの一部から検索できます。

Gutenberg eBooks List: Project Gutenbergの電子書籍の注釈付きリスト。

Hansards Text Chunks from the Canadian Parliament（カナダ議会のテキストチャンク）。第36回カナダ議会の記録から、130万組のテキストを収録。クイズ番組「Jeopardy」の20万問以上のアーカイブ。

SMS Spam Collection in English: 5,574件の英語のSMSスパムメッセージからなるデータセット。

Yelp Reviews: Yelp が公開しているオープンデータセットで、500万件以上のレビューが含まれています。

UCI’s Spambase:

Datasets for Autonomous Vehicles

Where can I download open datasets for training autonomous vehicles?

自律走行車は、環境や周囲の物体を正確に認識できるように、大量の高品質データセットで訓練する必要があります。

Berkeley DeepDrive BDD100k: 現在、自動運転 AI 用の最大のデータセット。時間帯や天候の異なる1,100時間以上の運転体験の動画が10万本以上収録されている。注釈付き画像はニューヨークとサンフランシスコ地域から。

Baidu Apolloscapes: 自動車、自転車、歩行者、建物、街灯など26種類の意味項目を定義した大規模な画像データセット。

Comma.ai: 7時間以上の高速道路走行。詳細は車の速度、加速度、ステアリングの角度、GPS座標など。

Oxford’s Robotic Car。イギリスのオックスフォードを通る同じルートを100回以上繰り返し、1年間かけて撮影したもの。このデータセットでは、天候、交通量、歩行者のさまざまな組み合わせを、工事や道路工事などの長期的な変化とともに捉えています。 50都市における都市の街並みを記録した大規模データセットです。

KUL Belgium Traffic Sign Dataset: ベルギーのフランダース地方にある数千の物理的に異なる交通標識から、10000以上の交通標識のアノテーションを取得。

MIT AGE Lab: AgeLabで収集された1000時間以上のマルチセンサードライビングデータセットのサンプル。

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets: このデータセットには、交通標識、車両検知、信号機、軌跡パターンなどが含まれる

。