Bibliothèque de ressources

Préparation des données – Présentation générale

Le terme « préparation des données » désigne les opérations de nettoyage et transformation qui doivent être appliquées aux données brutes avant leur traitement et analyse. Il s'agit d'un processus très chronophage, mais indispensable à un environnement de Business Intelligence exploitable. Et avec les outils de préparation des données disponibles en libre-service, ce processus est désormais plus facile à exécuter et très efficace.

En savoir plus

Analytique en périphérie – Avantages et inconvénients d’une connaissance immédiate et locale

Un rapport Gartner indique que 90 % des données accumulées par les entreprises ne seront jamais exploitables, et un rapport Experian indique que près de 32 % des données disponibles dans les entreprises américaines sont inexactes. Il n'en demeure pas moins que les données sont la ressource la plus précieuse de toute entreprise. Il est donc inconcevable de les ignorer complètement ou de les laisser dormir dans un data lake dont personne ne se préoccupe jamais. Les data scientists doivent impérativement exploiter leurs gisements de données IoT pour mieux comprendre les différents points de terminaison qui reçoivent ces données et formuler des conclusions permettant de définir un environnement opérationnel plus efficace.

En savoir plus

L’avenir des big data

Les big data ! Le terme fourre-tout utilisé pour décrire la collecte, l'analyse et l'exploitation de volumes considérables de données numériques en vue d'améliorer les opérations des entreprises. Les big data sont en train de transformer rapidement notre façon de vivre, de faire des achats et de mener notre vie quotidienne. Comprendre les big data et savoir les utiliser, c'est déjà préparer votre succès.

En savoir plus

Tests ETL – Présentation générale

Les tests ETL sont appliqués tout au long du processus ETL pour valider, vérifier et garantir la qualité des données tout en évitant la duplication des enregistrements et la perte de données. Ce document vous propose de découvrir les huit étapes des tests ETL, les neuf types de tests ETL, les défis les plus courants, comment identifier les outils les mieux adaptés à vos besoins, etc.

En savoir plus

Qu’est-ce qu’un data lake ?

Un data lake est un emplacement de stockage centralisé qui contient des big data sous un format brut provenant d'un grand nombre de sources. Les avantages du format data lake incitent de nombreuses entreprises à abandonner leurs data warehouses. Découvrez les avantages spécifiques des data lakes, pourquoi ils sont de plus en plus populaires et comment faire vos premiers pas pour en créer un.

En savoir plus

Qu’est-ce que le machine learning ?

Le machine learning est une technique qui utilise des probabilités statistiques pour donner aux ordinateurs la capacité d'apprendre par eux-mêmes grâce à leur exposition à différents types de données en entrée. On parle également, mais plus rarement d'« apprentissage automatique [par les machines] ».

En savoir plus

Qu’est-ce que profilage des données ?

Le profilage des données, une affaire sérieuse. Les entreprises qui appliquent des fonctionnalités de profilage à leurs données pour les structurer et les analyser plus efficacement découvrent de nouvelles opportunités de succès et se dotent d'un avantage concurrentiel très net sur le marché.

En savoir plus

Hadoop – Présentation générale

Hadoop est un framework Java open source utilisé pour le stockage et traitement des big data. Les données sont stockées sur des serveurs standard peu coûteux configurés en clusters. Le système de fichiers distribué Hadoop supporte des fonctionnalités de traitement concurrent et de tolérance aux incidents.

En savoir plus

Data lake vs data warehouse

Les termes « data lake » et « data warehouse » sont utilisés très couramment pour parler du stockage des big data, mais ils ne sont pas interchangeables (et noter qu'il n'est pas d'usage de rendre ces termes par un équivalent français). Un data lake est un vaste gisement (pool) de données brutes dont le but n'a pas été précisé. Un data warehouse est un référentiel de données structurées et filtrées qui ont déjà été transformées dans un but spécifique.

En savoir plus

MapReduce – Présentation générale

MapReduce est un modèle de programmation disponible dans les environnements Hadoop qui est utilisé pour accéder aux big data stockées dans le Hadoop File System (HDFS). La fonction map analyse les entrées, les paires et les processus et elle produit un autre ensemble de paires intermédiaires en sortie.

En savoir plus

ELT ou ETL : Définir la différence

La différence entre l’ETL et l’ELT réside dans le fait que les données sont transformées en informations décisionnelles et dans la quantité de données conservée dans les entrepôts. Découvrez ce que signifie ces différences pour les données décisionnelles, la meilleure approche pour votre entreprise et pourquoi le Cloud est un élément décisif.

En savoir plus


affichage des pages of 2