Mois : March 2018

Présentation du partitionnement d’Apache Spark – Ce que vous devez savoir

Les « datasets distribués résilients » (Resilient Distributed Datasets, RDD) d’Apache Spark sont des ensembles de données diverses dont la taille est si grande qu’ils ne tiennent pas dans un seul nœud et doivent être partagés entre plusieurs nœuds. Apache Spark divise automatiquement les RDD et répartit les partitions entre différents nœuds. Ils sont évalués […]


Il est temps de combattre les préjugés autour de la qualité des données

Les mauvaises données n’ont jamais été aussi volumineuses. Au cours des dernières années, nous avons vu un déluge incroyable de données qui noie tous les professionnels de la donnée.  Et ça n’est pas près de s’arrêter. Selon le dernier document d’IDC, Data Age 2025, la taille projetée de la sphère de données mondiales en 2025 serait l’équivalent de regarder l’intégralité du catalogue Netflix 489 millions fois […]


Big Data Paris 2018 : Talend partage sa vision de l’avenir du Big Data dans le Cloud

Pour Talend, l’avenir du Big Data est indéniablement dans le Cloud. Les capacités de big data dans le cloud offrent de nouvelles opportunités de croissance pour les entreprises. Les technologies cloud et big data placent la barre plus haut en matière d’efficacité opérationnelle, tandis que l’avènement de nouvelles réglementations sur les données créent de nouveaux […]