Big data – Expression à la mode ou plus que ça ? (1)

Le Big data est sur toutes les lèvres. Mais est-ce plus qu’une expression à la mode ? Dans cette série d’articles, l’expert en données, Dieter Rüetschi, veut analyser en profondeur le thème “Big data”, du point de vue des praticiens.

Autor Dieter Rüetschi
Datum 26.09.2018
Lesezeit 6 Minuten

“Je sais que nous devons faire quelque chose en matière de Big data et de Data science mais…”, voilà en substance ce que me disent beaucoup de mes clients. C’est justement ce défi qui me donne la motivation pour réaliser cette nouvelle série d’articles sur le Big data. J’aimerais aborder ce thème à partir de mon expérience personnelle en tant que praticien.

Le Big data – juste une expression à la mode ou plus que ça ?

Une définition semi-officielle de l’expression Big data se trouve sur Wikipédia :

“L’expression Big data est un anglicisme qui désigne des quantités de données qui sont par exemple trop volumineuses, trop complexes, trop éphémères ou trop peu structurées pour être exploitées avec les méthodes manuelles et traditionnelles de traitement des données.”

Lorsque nous décomposons encore un peu plus précisément cette définition, nous pouvons faire le lien avec la pratique encore plus facilement :

Le Big data est volontiers décrit comme la transposition technologique pour les solutions 3V :

Volume

Cet aspect donne son nom à la stratégie Big data. Souvent, les quantités de données sont trop importantes pour être transposées avec les outils et les moyens traditionnels.

Vélocité

Des quantités de données toujours plus importantes doivent être traitées, analysées et en partie aussi enregistrées à des intervalles toujours plus rapprochés.

Variété

Auparavant, nous avons déjà passé beaucoup de temps à enregistrer dans nos systèmes des données de structures des plus variées et à les traiter dans ces systèmes. La variété n’a cessé de grandir et de devenir plus dynamique avec le temps. Aujourd’hui, nous répartissons les données en deux groupes principaux : les données structurées et les données non structurées.

Considération élargie

En pratique, d’autres facteurs également très essentiels doivent être pris en considération lors du traitement, de la filtration et de l’analyse de telles données :

Source (origine des données)

Les sources se sont multipliées en termes de nombre et de type. Aujourd’hui, nous faisons la distinction au plus haut niveau d’abstraction

  • Données statiques : la plupart du temps provenant de bases de données ou de fichiers
  • Données dynamiques : streams ou flux de données

Complexité

Les données d’aujourd’hui proviennent de différentes sources, ce qui rend difficile leur association, leur recoupement, leur nettoyage et leur transformation dans différents systèmes.

Analyse des besoins

Alors que nous pouvions par le passé surtout nous concentrer sur l’analyse des structures de données (p. ex. Business intelligence, Reporting, Ad-hoc reporting), nous sommes désormais arrivés à l’étape suivante : l’exploitation des contenus des données et des dépendances non apparentes d’interprétations de données (Data mining, Data science, Intelligence artificielle, Machine learning, etc.).

Gestion des données

Le point souvent oublié : Comment organisons-nous les données existantes et les données nouvelles ?

Communication

La diffusion et l’énonciation des données et des connaissances nouvellement acquises sont ici d’une importance fondamentale. Étant donné que nous devons toujours plus classer les données et aussi les abstraire, la présentation transparente des données et leur livraison sont d’une grande importance.

Évidemment, d’autres thèmes liés tels que la qualité des données, la sécurité des données et la fiabilité ne doivent pas être négligés.

Conclusion tirée de ces définitions

Pour moi, il résulte de ces considérations que le Big data et sa transposition pratique sont :

  • Une stratégie pour la création, la gestion et l’entretien des systèmes d’analyse de données
  • Une compilation de concepts pour la manipulation, l’analyse et l’évaluation de données
  • Une boîte technologique pour les missions décrites ci-dessus, qui doit être adaptée aussi bien aux besoins du client qu’aux questions auxquelles il faut répondre
  • Une stratégie effective et efficace de répondre à un bouquet hétéroclite de questions basées sur des données
  • Un développement logique et un complément des systèmes de base de données classiques et de solutions de Business intelligence

Dans la deuxième partie de ce blog, l’aspect du développement logique des systèmes de base de données et de la Business intelligence dans la voie du Big Data est analysé, comme toujours du point de vue de la pratique.

Formations Big Data chez Digicomp


Über den Autor

Dieter Rüetschi

Dieter Rüetschi ist seit über 25 Jahren in der Softwareentwicklung, Beratung und Schulung tätig. Seit 2000 konzentriert er sich auf die .NET-Plattform mit dem SQL Server als Datenbank. Er hat in dieser Zeit unzählige Projekte begleitet, geleitet und entwickelt. Seit dem SQL Server 2000 erstellte er ausserdem BI-Lösungen für verschiedene Firmen in den unterschiedlichsten Branchen. Herr Rüetschi hat für Digicomp viele Kurse und Lehrgänge konzipiert und entwickelt. Er ist Inhaber der Firma Ability Solutions GmbH.