Os 50 Melhores Conjuntos de Dados Gratuitos para Aprendizagem de Máquinas | Lionbridge AI

Este artigo também está disponível em japonês e chinês simplificado.

Lionbridge AI reuniu uma riqueza de recursos para aprendizagem de máquinas e atividades de processamento de linguagem natural. Em nossos artigos anteriores, explicamos porque os conjuntos de dados são parte integrante da aprendizagem de máquinas e do processamento de linguagem natural. Sem conjuntos de dados de treinamento, os algoritmos de aprendizado de máquina não teriam como aprender a fazer mineração de texto, classificação de texto ou categorização de produtos.

Este artigo é a lista final de conjuntos de dados abertos para aprendizado de máquina. Eles vão desde o vasto (olhando para você, Kaggle) até os altamente específicos, como notícias financeiras ou conjuntos de dados de produtos Amazon.

Primeiro, algumas dicas rápidas para ter em mente ao procurar por conjuntos de dados:

Localize os conjuntos de dados limpos porque você não quer perder tempo limpando os dados você mesmo.
Localize os conjuntos de dados sem muitas linhas e colunas, porque estes são mais fáceis de trabalhar.
Há uma pergunta interessante que pode ser respondida com o conjunto de dados.

Abrir Dataset Finders

Onde posso descarregar gratuitamente, abrir conjuntos de dados para aprendizagem de máquinas?

A melhor maneira de aprender a aprendizagem de máquinas é praticar com diferentes projectos. Você pode pesquisar e baixar conjuntos de dados gratuitos online usando estes principais pesquisadores de conjuntos de dados.

Kaggle: Um site de ciência de dados que contém uma variedade de conjuntos de dados interessantes, com contribuições externas. Você pode encontrar todos os tipos de conjuntos de dados de nicho na sua lista principal, desde classificações de ramen até dados de basquetebol e até mesmo licenças de Seattle pet.

UCI Machine Learning Repository: Uma das mais antigas fontes de conjuntos de dados na web, e uma excelente primeira paragem quando se procura conjuntos de dados interessantes. Apesar de os conjuntos de dados serem contribuídos pelo usuário e, portanto, terem diferentes níveis de limpeza, a grande maioria é limpa. Você pode baixar os dados diretamente do repositório UCI Machine Learning, sem registro.

Datasets do governo público para Machine Learning

Onde posso baixar conjuntos de dados do governo público para Machine Learning?

Dados demográficos são uma ferramenta poderosa para melhorar o governo e a sociedade, servindo como base para grandes decisões econômicas. Modelos de aprendizagem de máquinas que foram treinados usando dados do governo público podem ajudar os formuladores de políticas a identificar tendências e se preparar para questões relacionadas ao declínio ou crescimento populacional, envelhecimento e migração.

Data.gov: Este site torna possível o download de dados de várias agências governamentais dos EUA. Os dados podem variar desde orçamentos do governo até notas de desempenho escolar. Mas atenção: muitos dos dados requerem pesquisa adicional.

Portal de Dados Aberto da UE: O Portal de Dados Abertos da UE fornece acesso a dados abertos publicados por instituições da UE em campos tão diversos como economia, emprego, ciência, ambiente e educação.

Finanças do Sistema Escolar: Este conjunto de dados foi desenvolvido através de um levantamento das finanças dos sistemas escolares nos EUA.

US Healthcare Data: Dados sobre saúde da população, doenças, medicamentos e planos de saúde foram coletados do banco de dados de medicamentos da FDA e do USDA Base de dados da composição dos alimentos neste conjunto de dados.

O Centro Nacional de Estatísticas de Educação dos EUA: Este site hospeda dados sobre instituições educacionais e demografias educacionais dos EUA e de todo o mundo.

O Serviço de Dados do Reino Unido: A maior coleção de dados sociais, econômicos e populacionais do Reino Unido pode ser encontrada aqui.

Dados EUA: Este site tem uma visualização abrangente dos dados públicos dos EUA.

Finanças &Dados de Economia para Aprendizagem de Máquinas

Onde posso fazer o download de dados financeiros e econômicos para aprendizagem de máquinas?

A aprendizagem de máquinas está provando ser uma oportunidade de ouro para o setor financeiro. Os registros quantitativos financeiros são mantidos por décadas, por isso a indústria é perfeitamente adequada para a aprendizagem de máquinas. Na verdade, a aprendizagem de máquinas já está transformando as finanças e a banca de investimentos para a negociação algorítmica, previsões do mercado de ações e detecção de fraudes. Em economia, a aprendizagem automática pode ser usada para testar modelos econômicos e prever o comportamento dos cidadãos.

Quandl: Uma boa fonte de dados econômicos e financeiros – útil para construir modelos para prever indicadores econômicos ou preços de ações.

World Bank Open Data: Datasets cobrindo demografia da população e um enorme número de indicadores econômicos e de desenvolvimento de todo o mundo.

Dados do FMI: O Fundo Monetário Internacional publica dados sobre finanças internacionais, taxas da dívida, reservas cambiais, preços de commodities e investimentos.

Dados de Mercado do Tempo Financeiro: Informações atualizadas sobre os mercados financeiros de todo o mundo, incluindo índices de preços de ações, commodities e divisas.

Tendências do Google: Examinar e analisar dados sobre a actividade de pesquisa na Internet e notícias de tendências em todo o mundo.

American Economic Association (AEA): Uma boa fonte para encontrar dados macroeconômicos dos EUA.

Dados de imagens para visão computadorizada

Onde posso baixar conjuntos de dados de imagens para visão computadorizada?

Os conjuntos de dados de imagens são úteis para treinar uma vasta gama de aplicações de visão por computador, tais como tecnologia de imagem médica, veículos autónomos e reconhecimento facial.

Labelme: Um grande conjunto de dados de imagens anotadas.

ImageNet: O conjunto de dados de imagem de facto para novos algoritmos. Está organizado de acordo com a hierarquia WordNet, na qual cada nó da hierarquia é representado por centenas e milhares de imagens.

LSUN: Compreensão de cena com muitas tarefas auxiliares (estimativa do layout da sala, previsão de saliência, etc.)

MS COCO: Compreensão de imagem genérica e legendagem.

COIL100: 100 objectos diferentes representados em cada ângulo numa rotação de 360º.

Genoma Visual: Base de conhecimentos visuais muito detalhada com legendas de ~100K imagens.

Google’s Open Images: Uma coleção de 9 milhões de URLs para imagens “que foram anotadas com rótulos abrangendo mais de 6.000 categorias” na Creative Commons.

Rostos rotulados na natureza: 13.000 imagens rotuladas de rostos humanos, para uso no desenvolvimento de aplicações que envolvem reconhecimento facial.

Dataset de cães de Stanford: Contém 20.580 imagens e 120 categorias diferentes de raças de cães.

Reconhecimento de Cenas Indoor: Um conjunto de dados muito específico, útil já que a maioria dos modelos de reconhecimento de cenas são melhores ‘fora’. Contém 67 categorias Indoor, e um total de 15620 imagens.

VisualQA: Este conjunto de dados contém questões em aberto relacionadas com 265.016 imagens. As perguntas feitas requerem uma compreensão da visão e da linguagem para responder.

Dados de Análise de Sentimento para Aprendizagem com Máquina

Onde posso descarregar conjuntos de dados de análise de sentimento para aprendizagem com máquina?

Modelos de análise de sentimentos requerem grandes conjuntos de dados especializados para aprender eficazmente. A lista a seguir deve indicar algumas das infinitas maneiras pelas quais você pode melhorar seu algoritmo de análise de sentimentos.

Dataset de Análise de Sentimento de Multidomínio: Um conjunto de dados um pouco mais antigo que apresenta comentários de produtos da Amazon.

IMDB Reviews: Um conjunto de dados mais antigo, relativamente pequeno para classificação de sentimento binário, apresenta 25.000 críticas de filmes.

Stanford Sentiment Treebank: Conjunto de dados padrão de sentimentos com anotações de sentimentos.

Sentiment140: Um popular conjunto de dados, que usa 160.000 tweets com emoticons pré-removidos.

Twitter US Airline Sentiment: Dados do Twitter sobre companhias aéreas dos EUA a partir de fevereiro de 2015, classificados como positivos, negativos e tweets neutros.

Datasets de processamento de linguagem natural

Onde posso baixar os conjuntos de dados abertos para processamento de linguagem natural?

O processamento de dados em linguagem natural é um campo enorme de pesquisa, mas a lista seguinte inclui uma ampla gama de conjuntos de dados para diferentes tarefas de processamento de linguagem natural, como reconhecimento de voz e chatbots.

Dataset de Enron: Dados de e-mail da gerência sênior da Enron, organizados em pastas.

Amazon Reviews: Contém cerca de 35 milhões de reviews da Amazon ao longo de 18 anos. Os dados incluem informações sobre produtos e usuários, classificações e a revisão de texto simples.

Google Books Ngrams: Uma coleção de palavras dos livros do Google.

Blogger Corpus: Uma coleção de 681.288 posts de blogs reunidos em blogger.com. Cada blog contém um mínimo de 200 ocorrências de palavras em inglês comumente usadas.

Wikipedia Links Data: O texto completo da Wikipedia. O conjunto de dados contém quase 1,9 bilhões de palavras de mais de 4 milhões de artigos. Você pode pesquisar por palavra, frase ou parte de um parágrafo.

Gutenberg eBooks List: Lista anotada de livros electrónicos do Project Gutenberg.

Pontos de Texto de Bandeiras do Parlamento Canadiano: 1,3 milhões de pares de textos dos registos do 36º Parlamento Canadiano.

Jeopardy: Arquivo de mais de 200.000 perguntas do quiz show Jeopardy.

SMS Spam Collection em inglês: Um conjunto de dados que consiste em 5.574 mensagens de spam SMS em inglês.

Yelp Reviews: Um conjunto de dados aberto lançado pelo Yelp, contém mais de 5 milhões de revisões.

UCI’s Spambase: Um grande conjunto de dados de spam, útil para filtragem de spam.

Datasets para veículos autónomos

Onde posso descarregar conjuntos de dados abertos para treino de veículos autónomos?

Os veículos autónomos precisam de ser treinados com grandes quantidades de conjuntos de dados de alta qualidade para que possam perceber com precisão o seu ambiente e objectos circundantes.

Berkeley DeepDrive BDD100k: Actualmente o maior conjunto de dados para IA de condução autónoma. Contém mais de 100.000 vídeos de mais de 1.100 horas de condução em diferentes horas do dia e condições meteorológicas. As imagens anotadas vêm das áreas de Nova Iorque e São Francisco.

Baidu Apolloscapes: Grande conjunto de imagens que define 26 itens semânticos diferentes, como carros, bicicletas, pedestres, edifícios, luzes de rua, etc.

Comma.ai: Mais de 7 horas de condução na auto-estrada. Detalhes incluem velocidade do carro, aceleração, ângulo de direção e coordenadas GPS.

Oxford’s Robotic Car: Mais de 100 repetições da mesma rota através de Oxford, Reino Unido, capturadas durante um período de um ano. O conjunto de dados captura diferentes combinações de tempo, tráfego e pedestres, juntamente com mudanças de longo prazo, como construção e obras rodoviárias.

Cityscape Dataset: Um grande conjunto de dados que regista cenas urbanas de rua em 50 cidades diferentes.

KUL Belgium Traffic Traffic Sign Sign Dataset: Mais de 10000+ anotações de sinais de trânsito de milhares de sinais de trânsito fisicamente distintos na região da Flandres na Bélgica.

MIT AGE Lab: Uma amostra das mais de 1.000 horas de conjuntos de dados de condução multi-sensor recolhidos no AgeLab.

LISA: Laboratório para Automóveis Inteligentes & Safe Automobiles, UC San Diego Datasets: Este conjunto de dados inclui sinais de trânsito, detecção de veículos, semáforos e padrões de trajectória.