Par:
Aimé DIUMI DIKOLO
Kleine KAMBALA MBO
Minasquin SOKOMBE
Par:
Aimé DIUMI DIKOLO
Kleine KAMBALA MBO
Minasquin SOKOMBE
Littéralement, ces termes signifient mégadonnées, grosses données ou encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler. En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours. Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous premiers à déployer ce type de technologie.
Le Big Data se présente comme une solution dessinée pour permettre à tout le monde d’accéder en temps réel à des bases de données géantes. Il vise à proposer un choix aux solutions classiques de bases de données et d’analyse (plate-forme de Business Intelligence en serveur SQL…).
Selon le Gartner, ce concept regroupe une famille d’outils qui répondent à une triple problématique dite règle des 3V. Il s’agit notamment d’un Volume de données considérable à traiter, une grande Variété d’informations (venant de diverses sources, non-structurées, organisées, Open…), et un certain niveau de Vélocité à atteindre, autrement dit de fréquence de création, collecte et partage de ces données.
Un data scientist est un informaticien chargé de la gestion, de l’analyse et de l’exploitation des données massives (big data) dans les entreprises. Il est spécialiste de la science des données. Le métier de Data Scientist combine trois fonctions différentes : analyste statisticien, informaticien programmeur et manager.
Ce professionnel est en relation constante avec d'autres data scientists ou des data miners (spécialistes du Data Warehouse), le directeur général, le responsable de production, le directeur business analyse, le directeur des systèmes d'information ou le directeur des études pour qui il rédige régulièrement des rapports.
Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données du big data. De nouveaux modèles de représentation permettent de garantir les performances sur les volumétries en jeu. Ces technologies, dites de business analytics and optimization (BAO) permettent de gérer des bases massivement parallèles.
Des patrons d’architecture (“big data architecture framework", BDAF) sont proposés par les acteurs de ce marché comme MapReduce créé par Google et utilisé dans le framework Hadoop. Avec ce système, les requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées en parallèles (map). Les résultats sont ensuite rassemblés et récupérés (reduce). Teradata, Oracle ou EMC (via le rachat de Greenplum) proposent également de telles structures, basées sur des serveurs standards dont les configurations sont optimisées.
Ils sont concurrencés par des éditeurs comme SAP et plus récemment Microsoft. Les acteurs du marché s’appuient sur des systèmes à forte évolutivité horizontale et sur des solutions basées sur du NoSQL (MongoDB, Cassandra) plutôt que sur des bases de données relationnelles classiques.
Le traitement des masses de données numériques provenant de différents canaux requiert des outils informatiques spécifiques. Il en existe plusieurs, dont voici quelques-uns :
Le machine learning met l’intelligence artificielle au service du Big Data. Il s’agit de systèmes utilisant des algorithmes pour apprendre des données reçues