Par:
Aimé DIUMI DIKOLO
Kleine KAMBALA MBO
Minasquin SOKOMBE

QUELQUES DOMAINES DE L'INFORMATIQUE

Par:
Aimé DIUMI DIKOLO
Kleine KAMBALA MBO
Minasquin SOKOMBE

VIII. BIG DATA

VIII.1 Généralités

Littéralement, ces termes signifient mégadonnées, grosses données ou encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler. En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours. Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous premiers à déployer ce type de technologie.

Le Big Data se présente comme une solution dessinée pour permettre à tout le monde d’accéder en temps réel à des bases de données géantes. Il vise à proposer un choix aux solutions classiques de bases de données et d’analyse (plate-forme de Business Intelligence en serveur SQL…).

Selon le Gartner, ce concept regroupe une famille d’outils qui répondent à une triple problématique dite règle des 3V. Il s’agit notamment d’un Volume de données considérable à traiter, une grande Variété d’informations (venant de diverses sources, non-structurées, organisées, Open…), et un certain niveau de Vélocité à atteindre, autrement dit de fréquence de création, collecte et partage de ces données.

VIII.2 Le data scientist

Un data scientist est un informaticien chargé de la gestion, de l’analyse et de l’exploitation des données massives (big data) dans les entreprises. Il est spécialiste de la science des données. Le métier de Data Scientist combine trois fonctions différentes : analyste statisticien, informaticien programmeur et manager.

Ce professionnel est en relation constante avec d'autres data scientists ou des data miners (spécialistes du Data Warehouse), le directeur général, le responsable de production, le directeur business analyse, le directeur des systèmes d'information ou le directeur des études pour qui il rédige régulièrement des rapports.

VIII.3 Les modèles

Les bases de données relationnelles classiques ne permettent pas de gérer les volumes de données du big data. De nouveaux modèles de représentation permettent de garantir les performances sur les volumétries en jeu. Ces technologies, dites de business analytics and optimization (BAO) permettent de gérer des bases massivement parallèles.

Des patrons d’architecture (“big data architecture framework", BDAF) sont proposés par les acteurs de ce marché comme MapReduce créé par Google et utilisé dans le framework Hadoop. Avec ce système, les requêtes sont séparées et distribuées à des nœuds parallélisés, puis exécutées en parallèles (map). Les résultats sont ensuite rassemblés et récupérés (reduce). Teradata, Oracle ou EMC (via le rachat de Greenplum) proposent également de telles structures, basées sur des serveurs standards dont les configurations sont optimisées.

Ils sont concurrencés par des éditeurs comme SAP et plus récemment Microsoft. Les acteurs du marché s’appuient sur des systèmes à forte évolutivité horizontale et sur des solutions basées sur du NoSQL (MongoDB, Cassandra) plutôt que sur des bases de données relationnelles classiques.

VIII.4 Les logiciels ou outils pour le big data

Le traitement des masses de données numériques provenant de différents canaux requiert des outils informatiques spécifiques. Il en existe plusieurs, dont voici quelques-uns :

Hadoop
Les logiciels orientés colonne : HBase de Cloudera, MongoDB, Cassandra etc.
Machine Learning

Le machine learning met l’intelligence artificielle au service du Big Data. Il s’agit de systèmes utilisant des algorithmes pour apprendre des données reçues

Les logiciels de web Analytics
RapidMiner
Apache Storm

Retrouvez ce cours en format pdf
Télécharger

Retrouvez ce cours en format pdf
Télécharger

AVANT PROPOS
INTRODUCTION
I. Programmation et développement
I.1 Généralités sur les langages de programmation
I.2 Généralités sur les Frameworks
I.3 Description du métier
I.4 Compétences et qualités d’un développeur
I.5 Les spécialités du développement
I.5.1 Développement web
I.5.2 Développement desktop
I.5.3 Développement mobile
I.6 BONUS
I.6.1 Quelques classements de langages de programmation
I.6.2 Classement des Frameworks
I.6.3 Citations et pensées sur le développement
II. Infrastructures et réseaux
II.1 Définitions
II.2. Types de réseaux
II.3 Supports des réseaux informatiques
II. 4 Eléments des réseaux informatiques
II.5 Quelques compétences nécessaires d’un administrateur et/ou technicien des réseaux informatiques
II.6 Quelques outils de l’administration réseaux
III. Administration base de données
III.1 Définitions
III. 2 Différents types de base de données
III.2.1 Base de données hiérarchique
III.2.2. Base de données réseau
III.2.3 Base de données orientée texte
III.2.4 Base de données relationnelle (SQL)
III.2.5 Base de données distribuée
III.2.6 Base de données Cloud
III.2.7 Base de données NoSQL
III.2.8 Base de données orientée objets
III.2.9 Base de données orientée graphe
III.3 Système de gestion de base de données
IV. Sécurité informatique
IV.1 Généralités
IV.2 Objectifs de la sécurité informatique
IV.3 Terminologie de la sécurité informatique
IV.4 Types d’attaques
IV.5 Les acteurs
IV.5.1 Les hackers
IV.5.2 Les espions
IV.6 Les moyens d’attaques
V. Administration système
V.1 Définitions
V.2 Les attributions d’un administrateur système
V.3 Les compétences
VI. Infographie
VI.1 Généralités
VI.2 Les métiers de l’infographie
VI.3 Domaines d’application de l’infographie
VI.4 Les logiciels utilisés en infographie
VII. Analyse informatique
VII.1 Généralités
VII.2 Description du métier
VII.3 Tâches et responsabilités d’un analyste
VII.4 Caractéristiques d’une méthode d’analyse
VII.5 Les méthodes d’analyse informatique
VIII. Big data
VIII.1 Généralités
VIII.2 Le data scientist
VIII.3 Les modèles
VIII.4 Les logiciels ou outils pour le big data
IX. Intelligence artificielle
IX.1 Généralités
IX.2 Domaines d’applications de l’intelligence artificielle
IX.3 Les langages de programmation utilisés en Intelligence artificielle
X. Informatique embarquée
X.1 Généralités
X.2 Les contraintes du système embarqué
X.3 Langages utilisés