Les données sont éternelles. Utilisez-vous une application de la meme façon qu’il y a 20 ? Vous servez-vous d’une technologie vielle de 20 ans? La réponse est probablement Non. En revanche, l’utlisation des donnees reste la meme peut importe l’epoque. Que se soit les dessins dans les grottes, les photos argentiques, ou les livres, les données ne vieillissent jamais et perdureront. Les systèmes, technologies et applications qui interprètent et analysent les données ont été modifiées mais les données sont restées dans leur format d’origine dans la plupart des cas.
Parallèlement à l’évolution des entreprises, les données qu’elles génèrent ont connu une croissance exponentielle. De nos jours, leurs données sont très complexes. La plupart des grandes entreprises possèdent des données dans différents domaines et sous plusieurs formats. Ces informations sont des fois réparties sur plusieurs continent, il en devient donc difficile de les catégoriser avec un seul algorithme. La révolution que nous sommes en train de vivre a complètement changé la façon dont nous comprenons et gérons les données, et l’information et comment nous créons des systèmes intelligents. Les entreprises sont en effet confrontées à des défis pour conserver toutes les données sur une plate-forme, ce qui leur donne une vue cohérente unique de leurs données. Ce défi unique, qui consiste à donner un sens à toutes les données provenant de différentes sources et à extraire les informations utiles pouvant donner lieu à une action, est la révolution à laquelle le monde du Big Data est confronté.
On en vient donc naturellement à se demander: qu’est-ce que le Big Data? Voici un bon moyen d’y penser. Les données volumineuses sont des données trop volumineuses pour une gestion de données traditionnelle.
Big, bien sûr, est aussi subjectif. C’est pourquoi nous allons le décrire selon trois vecteurs: volume, vitesse et variété – les trois Vs.
1. Le Volume
Le premier V qui vient à l’esprit quand on parle de Big Data est le V de Volume. En effet le volume peut être important. Nous parlons ici de quantités de données atteignant des proportions presque incompréhensibles. Nous constatons actuellement une croissance exponentielle du stockage de données, car les données informatiques dépassent désormais les données textuelles et manuscrites. Il est possible de trouver des vidéos, musiques et grandes images sur nos ordis ou nos réseaux sociaux. Il est aujourd’hui normal de disposer de téraoctets et de pétaoctets du système de stockage pour les entreprises. Pendant que les bases de données grandissent, les applications et leurs conceptions des données doivent être réévaluées assez souvent. Il peut même arriver, que les mêmes données soient réévaluées sous plusieurs angles et, même si les données d’origine sont identiques, la nouvelle intelligence trouvée crée une explosion des données. Le gros volume représente bien le Big Data.
Le réseau social Facebook, stocke des milliards de conversations, de vidéos et d’images. Aujourd’hui Facebook compte plus d’utilisateurs que la Chine n’a d’habitants. Facebook stocke environ 250 milliards d’images.
Ainsi, dans le monde du Big Data, lorsque nous commençons à parler de volume, nous parlons d’énormes quantités de données. À mesure que nous avancerons, nous aurons de plus en plus d’énormes collections
C’est le vecteur de volume.
2. La Vélocité
Reprenons l’exemple de Facebook. 250 milliards d’images c’est tout simplement énorme. Mais ajoutez-y ceci: les utilisateurs de Facebook téléchargent plus de 900 millions de photos par jour.
La vélocité est la mesure de vitesse de circulation des fichiers, des données. Facebook doit gérer un nombre incommensurable de photos, vidéos chaque jour.
Les évolutions récentes signifient que non seulement les consommateurs, mais également les entreprises, génèrent davantage de données dans des cycles beaucoup plus courts. En raison de la vitesse, les entreprises ne peuvent capitaliser sur ces données que si celles-ci sont capturées et partagées en temps réel. C’est aujourd’hui où de nombreux outils d’analyse, de gestion de la relation client, de personnalisation, de points de vente ou des systèmes similaires sont défaillants. Ils ne peuvent traiter les données que par lots toutes les quelques heures, voire pas du tout, ce qui les rend inutiles, car le cycle de création de nouvelles données a déjà commencé.
Ils rejettent souvent les anciens messages et prêtent attention aux mises à jour récentes. Le mouvement des données est maintenant presque temps réel et la fenêtre de mise à jour a été réduite à des fractions de secondes. Ces données à haute vélocité représentent le Big Data.
3. Variété
Il existe une grande variété de données. Les photographies, les données de capteurs, les tweets, les vidéos, les musiques entre autres. Chacun de ces formats sont très différents les uns des autres. Et leur traitement est tout aussi différents et intrinsèque au format. On ne traitera pas un texte et une vidéo de la même manière.
Prenons en considération l’exemple des e-mails. Un intervention juridique peut légalement mener a une enquête et vérification de boites mails ce qui peut nécessiter de parcourir des milliers, voire des millions de courriers électroniques. Chacun de ces e-mails sera unique et aura sa propre valeur. Chacun consistera en l’adresse de messagerie de l’expéditeur, une destination et un horodatage. Chaque message aura un texte écrit par la personne et peut contenir éventuellement des pièces jointes.
De nouveaux de types de données provenant de sources sociales, de machines à machines et mobiles ajoutent de nouveaux types de données aux données transactionnelles traditionnelles. Les données ne rentrent plus dans des structures soignées et faciles à consommer. Les nouveaux types incluent contenu, géo-spatial, points de données matérielles, emplacement, données de journal, données machine, métriques, mobile, points de données physiques, processus, RFID, recherche, sentiment, flux de données, social, texte et Web. Les objets métier rapides d’hybris (inventés il y a environ huit ans) ont été un précurseur de cette tendance; permettant aux entreprises d’introduire rapidement de nouveaux objets de données ou d’étendre des objets existants avec de nouvelles caractéristiques.
Le monde réel contient des données dans de nombreux formats différents et c’est le défi que nous devons relever avec le Big Data. Cette variété de données représente le Big Data.
Conclusion
Le Big Data ne se résume simplement pas à un grand nombre de données, il s’agit en réalité d’un concept qui permet de mieux comprendre vos données existantes, ainsi que des directives pour la capture et l’analyse de vos données futures. Il rend toute entreprise plus agile et plus robuste, ce qui lui permet de s’adapter et de surmonter ses défis. Cependant les 3 V ne suffisent parfois pas à définir le big data.