Los 50 mejores conjuntos de datos gratuitos para el aprendizaje automático | Lionbridge AI

Este artículo también está disponible en japonés y chino simplificado.

Lionbridge AI ha reunido una gran cantidad de recursos para las actividades de aprendizaje automático y procesamiento del lenguaje natural. En nuestros artículos anteriores, explicamos por qué los conjuntos de datos son una parte integral del aprendizaje automático y el procesamiento del lenguaje natural. Sin los conjuntos de datos de entrenamiento, los algoritmos de aprendizaje automático no tendrían forma de aprender a hacer minería de textos, clasificación de textos o categorizar productos.

Este artículo es la lista definitiva de conjuntos de datos abiertos para el aprendizaje automático. Van desde lo más vasto (mirándote a ti, Kaggle) hasta lo más específico, como las noticias financieras o los conjuntos de datos de productos de Amazon.

Primero, algunas indicaciones rápidas para tener en cuenta al buscar conjuntos de datos:

Busca conjuntos de datos limpios porque no quieres perder tiempo limpiando los datos tú mismo.
Busca conjuntos de datos sin demasiadas filas y columnas, porque son más fáciles de trabajar.
Debe haber una pregunta interesante que pueda responderse con el conjunto de datos.

Buscadores de conjuntos de datos abiertos

¿Dónde puedo descargar conjuntos de datos abiertos y gratuitos para el aprendizaje automático?

La mejor manera de aprender el aprendizaje automático es practicar con diferentes proyectos. Puedes buscar y descargar conjuntos de datos gratuitos en línea utilizando estos principales buscadores de conjuntos de datos.

Kaggle: Un sitio de ciencia de datos que contiene una variedad de conjuntos de datos interesantes aportados externamente. Puedes encontrar todo tipo de conjuntos de datos de nicho en su lista principal, desde clasificaciones de ramen hasta datos de baloncesto e incluso licencias de mascotas de Seattle.

Repositorio de aprendizaje automático de la UCI: Una de las fuentes más antiguas de conjuntos de datos en la web, y una gran primera parada cuando se buscan conjuntos de datos interesantes. Aunque los conjuntos de datos son aportados por los usuarios, y por lo tanto tienen diferentes niveles de limpieza, la gran mayoría están limpios. Puede descargar los datos directamente desde el repositorio de aprendizaje automático de la UCI, sin necesidad de registrarse.

Conjuntos de datos gubernamentales públicos para el aprendizaje automático

¿Dónde puedo descargar conjuntos de datos gubernamentales públicos para el aprendizaje automático?

Los datos demográficos son una poderosa herramienta para mejorar el gobierno y la sociedad, al servir de base para las principales decisiones económicas. Los modelos de aprendizaje automático entrenados con datos públicos del gobierno pueden ayudar a los responsables políticos a identificar tendencias y a prepararse para cuestiones relacionadas con el descenso o el crecimiento de la población, el envejecimiento y la migración.

Data.gov: Este sitio permite descargar datos de múltiples organismos del gobierno estadounidense. Los datos pueden abarcar desde los presupuestos del gobierno hasta los resultados de las escuelas. Sin embargo, hay que tener en cuenta que muchos de los datos requieren una investigación adicional.

Portal de Datos Abiertos de la UE: El portal de datos abiertos de la UE permite acceder a datos abiertos publicados por las instituciones de la UE en ámbitos tan diversos como la economía, el empleo, la ciencia, el medio ambiente y la educación.

Finanzas del sistema escolar: Este conjunto de datos se elaboró a partir de una encuesta sobre las finanzas de los sistemas escolares de Estados Unidos.

Datos sobre la atención sanitaria en Estados Unidos: En este conjunto de datos se han recogido datos sobre la salud de la población, las enfermedades, los medicamentos y los planes de salud a partir de la base de datos de medicamentos de la FDA y de la base de datos de composición de alimentos del USDA.

El Centro Nacional de Estadísticas Educativas de EE.UU.: Este sitio alberga datos sobre instituciones educativas y demografía de la educación de los Estados Unidos y de todo el mundo.

El Servicio de Datos del Reino Unido: La mayor colección de datos sociales, económicos y de población del Reino Unido se puede encontrar aquí.

Data USA: Este sitio tiene una visualización completa de los datos públicos de Estados Unidos.

Finanzas &Conjuntos de datos de economía para el aprendizaje automático

¿Dónde puedo descargar conjuntos de datos de finanzas y economía para el aprendizaje automático?

El aprendizaje automático está demostrando ser una oportunidad de oro para el sector financiero. Los registros cuantitativos financieros se conservan durante décadas, por lo que el sector se adapta perfectamente al aprendizaje automático. De hecho, el aprendizaje automático ya está transformando las finanzas y la banca de inversión para el comercio algorítmico, las predicciones bursátiles y la detección del fraude. En economía, el aprendizaje automático puede utilizarse para probar modelos económicos y predecir el comportamiento de los ciudadanos.

Quandl: Una buena fuente de datos económicos y financieros – útil para construir modelos para predecir indicadores económicos o precios de las acciones.

World Bank Open Data: Conjuntos de datos que cubren la demografía de la población y un gran número de indicadores económicos y de desarrollo de todo el mundo.

Datos del FMI: El Fondo Monetario Internacional publica datos sobre finanzas internacionales, tipos de deuda, reservas de divisas, precios de las materias primas e inversiones.

Financial Times Market Data: Información actualizada sobre los mercados financieros de todo el mundo, incluidos los índices bursátiles, las materias primas y las divisas.

Google Trends: Examina y analiza datos sobre la actividad de búsqueda en Internet y las noticias de tendencia en todo el mundo.

American Economic Association (AEA): Una buena fuente para encontrar datos macroeconómicos de Estados Unidos.

Conjuntos de datos de imágenes para visión por ordenador

¿Dónde puedo descargar conjuntos de datos de imágenes para visión por ordenador?

Los conjuntos de datos de imágenes son útiles para el entrenamiento de una amplia gama de aplicaciones de visión por ordenador, como la tecnología de imágenes médicas, los vehículos autónomos y el reconocimiento facial.

Labelme: Un gran conjunto de datos de imágenes anotadas.

ImageNet: El conjunto de datos de imágenes de facto para los nuevos algoritmos. Está organizado según la jerarquía de WordNet, en la que cada nodo de la jerarquía está representado por cientos y miles de imágenes.

LSUN: Comprensión de la escena con muchas tareas auxiliares (estimación de la disposición de la habitación, predicción de la saliencia, etc.)

MS COCO: Comprensión genérica de la imagen y subtitulación.

COIL100 : 100 objetos diferentes fotografiados en todos los ángulos en una rotación de 360º.

Genoma visual: Base de conocimiento visual muy detallada con subtítulos de ~100K imágenes.

Google’s Open Images: Una colección de 9 millones de URL de imágenes «que han sido anotadas con etiquetas que abarcan más de 6.000 categorías» bajo Creative Commons.

Labelled Faces in the Wild: 13.000 imágenes etiquetadas de rostros humanos, para su uso en el desarrollo de aplicaciones que implican el reconocimiento facial.

Stanford Dogs Dataset: Contiene 20.580 imágenes y 120 categorías de razas de perros diferentes.

Reconocimiento de escenas interiores: Un conjunto de datos muy específico, útil ya que la mayoría de los modelos de reconocimiento de escenas son mejores «en exteriores». Contiene 67 categorías de interiores y un total de 15620 imágenes.

VisualQA: Este conjunto de datos contiene preguntas abiertas relacionadas con 265.016 imágenes. Las preguntas formuladas requieren una comprensión de la visión y el lenguaje para responder.

Conjuntos de datos de análisis de sentimientos para el aprendizaje automático

¿Dónde puedo descargar conjuntos de datos de análisis de sentimientos para el aprendizaje automático?

Los modelos de análisis de sentimientos requieren conjuntos de datos grandes y especializados para aprender con eficacia. La siguiente lista debería sugerir algunas de las infinitas formas en las que puede mejorar su algoritmo de análisis de sentimientos.

Conjunto de datos de análisis de sentimientos multidominio: Un conjunto de datos ligeramente más antiguo que presenta reseñas de productos de Amazon.

IMDB Reviews: Un conjunto de datos más antiguo y relativamente pequeño para la clasificación binaria de sentimientos, con 25.000 críticas de películas.

Stanford Sentiment Treebank: Conjunto de datos de sentimiento estándar con anotaciones de sentimiento.

Sentiment140: Un popular conjunto de datos que utiliza 160.000 tuits con emoticonos eliminados previamente.

Twitter US Airline Sentiment: Datos de Twitter sobre aerolíneas estadounidenses de febrero de 2015, clasificados en tuits positivos, negativos y neutros.

Conjuntos de datos de procesamiento del lenguaje natural

¿Dónde puedo descargar conjuntos de datos abiertos para el procesamiento del lenguaje natural?

El procesamiento del lenguaje natural es un campo de investigación masivo, pero la siguiente lista incluye una amplia gama de conjuntos de datos para diferentes tareas de procesamiento del lenguaje natural, como el reconocimiento de voz y los chatbots.

Enron Dataset: Datos de correo electrónico de la alta dirección de Enron, organizados en carpetas.

Amazon Reviews: Contiene alrededor de 35 millones de reseñas de Amazon que abarcan 18 años. Los datos incluyen información sobre el producto y el usuario, valoraciones y la reseña en texto plano.

Google Books Ngrams: Una colección de palabras de los libros de Google.

Blogger Corpus: Una colección 681.288 entradas de blog recogidas de blogger.com. Cada blog contiene un mínimo de 200 apariciones de palabras inglesas de uso común.

Wikipedia Links Data: El texto completo de Wikipedia. El conjunto de datos contiene casi 1.900 millones de palabras de más de 4 millones de artículos. Se puede buscar por palabra, frase o parte de un párrafo en sí.

Lista de libros electrónicos de Gutenberg: Lista comentada de libros electrónicos del Proyecto Gutenberg.

Hansards Text Chunks from the Canadian Parliament: 1,3 millones de pares de textos de las actas del 36º Parlamento canadiense.

Jeopardy: Archivo de más de 200.000 preguntas del programa de concursos Jeopardy.

Colección de spam en inglés: Un conjunto de datos que consta de 5.574 mensajes de spam SMS en inglés.

Yelp Reviews: Un conjunto de datos abierto publicado por Yelp, contiene más de 5 millones de reseñas.

UCI’s Spambase: Un gran conjunto de datos de correo electrónico de spam, útil para el filtrado de spam.

Conjuntos de datos para vehículos autónomos

¿Dónde puedo descargar conjuntos de datos abiertos para el entrenamiento de vehículos autónomos?

Los vehículos autónomos necesitan ser entrenados con grandes cantidades de conjuntos de datos de alta calidad para que puedan percibir con precisión su entorno y los objetos que los rodean.

Berkeley DeepDrive BDD100k: Actualmente es el mayor conjunto de datos para la IA de autoconducción. Contiene más de 100.000 vídeos de más de 1.100 horas de conducción en diferentes momentos del día y condiciones meteorológicas. Las imágenes anotadas proceden de las zonas de Nueva York y San Francisco.

Baidu Apolloscapes: Gran conjunto de datos de imágenes que define 26 elementos semánticos diferentes, como coches, bicicletas, peatones, edificios, farolas, etc.

Comma.ai: Más de 7 horas de conducción en carretera. Los detalles incluyen la velocidad del coche, la aceleración, el ángulo de dirección y las coordenadas GPS.

Coche robótico de Oxford: Más de 100 repeticiones de la misma ruta a través de Oxford, Reino Unido, capturadas a lo largo de un año. El conjunto de datos capta diferentes combinaciones de clima, tráfico y peatones, junto con cambios a largo plazo, como construcciones y obras en la carretera.

Cityscape Dataset: Un gran conjunto de datos que registra escenas de calles urbanas en 50 ciudades diferentes.

KUL Belgium Traffic Sign Dataset: Más de 10000 anotaciones de señales de tráfico de miles de señales de tráfico físicamente distintas en la región de Flandes en Bélgica.

MIT AGE Lab: Una muestra de las más de 1.000 horas de conjuntos de datos de conducción multisensoriales recopilados en AgeLab.

LISA: Laboratory for Intelligent &Safe Automobiles, UC San Diego Datasets: Este conjunto de datos incluye señales de tráfico, detección de vehículos, semáforos y patrones de trayectoria.