Dans un précédent article, nous avions vu que le Big Data pouvait être défini par 3 V.
Selon les spécialistes on peut ajouter des V a ces 3 premiers. Le Big Data peut être décrit grâce aux six V: volume, variété, vitesse, valeur, véracité et variabilité.
1. Volume
Le volume est une composante primordiale du Big Data et représente principalement la relation entre la taille et la capacité de traitement. Cet variable évolue rapidement à mesure que l’accumulation de données continue de s’effectuer.
Lorsque l’on parle de données massives et donc volumineuses, la plus part des gens ne pensent souvent qu’au simple volume. Mais il existe également cinq autres aspect qui peuvent vous aider à rendre le Big Data utiles: Ces aspects jouent un rôle très important dans l’amélioration des bases de données.
2. Variété
Le V de la variété décrit la grande diversité d’information contenue qui doit encore être traitée et analysée. De nouveaux types de données issus des réseaux sociaux et d’appareils connectés, entre autres, complètent les types d’informations structurés existants.
Par exemple: fichiers audio et vidéo, photos, données GPS, fichiers médicaux, mesures d’instruments, graphiques, documents Web, cartes bonus et comportement de recherche sur Internet. Les datas non structurées telles que la voix et les médias sociaux rendent difficile le traitement et la catégorisation des datas.
Ce V fait référence à des données provenant de différentes sources et types, qui peuvent être structurées ou non. Les données non structurées créent des problèmes de stockage, d’exploration de données et d’analyse des données. Avec la croissance des données, même le type de données a connu une croissance rapide.
3. Vitesse
La Vitesse est une mesure de la valeur éphémère de l’information. Le Big Data évolue rapidement. Par conséquent, nous devons traiter rapidement des flux de données structurés et non structurés pour tirer parti des données de géolocalisation, des excès et des tendances perçues, ainsi que des informations sur le marché et les clients disponibles en temps réel. Velocity implique la condition selon laquelle vous devez traiter vos données en quelques minutes ou secondes pour obtenir les résultats que vous recherchez.
Le flux de données est massif et continu, ceci a une grande valeur aux yeux des chercheurs et des entreprises pour la prise de décision à propos des avantages concurrentiels. Pour le traitement des données avec des vitesses élevées, des outils de traitement de données connus sous le nom d’analyse en continu ont été introduits. L’échantillonnage des données facilite le tri des problèmes de volume et de vélocité.
4. Valeur
Ce V décrit la valeur qu’il est possible d’obtenir à partir des données et comment les mégadonnées obtiennent de meilleurs résultats à partir de données stockées.
La Valeur fait référence à l’objectif, au scénario ou au résultat commercial que la solution analytique doit prendre en compte. Les données ont-elles une valeur, sinon valent-elles la peine d’être stockées ou collectées? L’analyse doit être effectuée pour répondre aux considérations éthiques.
Un bon moyen de valoriser vos données volumineuses consiste à travailler avec des personas. Ils donnent un nom et un visage à différents groupes de clients et constituent un moyen très puissant de rendre les organisations plus orientées client. Les personas ont été conçues pour répondre au besoin de profiler les nombreux visiteurs du site Web, augmentant ainsi la convivialité de ces sites.
Vous pouvez créer des personas en fonction des données disponibles sur le comportement du client.
5. Véracité
La véracité permet de vérifier la qualité et l’origine de l’information. Par exemple, certaines data peuvent parraitre comme douteuses, conflictuelles ou impures. La véracité fournit des informations sur des sujets que vous ne savez pas comment traiter. En un sens, c’est un facteur d’hygiène. En montrant la véracité de vos données, vous montrez que vous en avez jeté un regard critique.
Tout ce qui fait partie du processus de base d’une entreprise est fiable, le reste est contaminé. Vous devez prendre en compte cette pollution. Vous devez être convaincu que les données que vous avez sélectionnées fonctionneront également correctement et seront suffisantes. C’est beaucoup de travail monotone mais nécessaire.
En somme, la véracité fait référence aux biais, aux bruits et aux anomalies dans les données. C’est là que nous devons pouvoir identifier la pertinence des données et nous assurer que leur nettoyage est effectué de manière à ne stocker que des données précieuses. Vérifiez que les données sont adaptées à l’usage auquel elles sont destinées et utilisables dans le modèle analytique. Les données doivent être testées par rapport à un ensemble de critères définis.
6. Variabilité
Enfin, à quelle vitesse la structure de vos données change-t-elle? Et à quelle fréquence la forme de vos données change-t-elle?
L’important est d’établir si la structure contextuelle du flux de données est régulière et fiable même dans des conditions d’imprévisibilité extrême. La variabilité définit la nécessité d’obtenir des données significatives en tenant compte de toutes les circonstances possibles.
C’est particulièrement le cas lorsque la collecte de données repose sur le traitement de la langue. Brian Hopkins, analyste principal de Forrester, a cité le supercalculateur Watson comme un excellent exemple de cela. Pour participer au jeu télévisé Jeopardy, Watson devait «disséquer une réponse dans son sens et […] pour déterminer quelle était la bonne question». Les mots n’ont pas de définitions statiques et leur signification peut varier énormément dans le contexte.
En gros, lorsqu’il est question de Big Data, cela ne comprend pas uniquement l’immense quantités d’information composant des trésors de connaissance. Cela comprend également le travail d’analyse de ces données, la façon dont nous sélectionnons le trésor. Dans l’univers du Big Data, les données et les analyses sont interdépendantes: l’une sans l’autre est insensé, mais leur puissance combinée est illimitée.