Centre de ressources

Accueil Centre de ressources Le Data Lake : et si, sans le savoir vous aviez déjà constitué le vôtre ?

Le Data Lake : et si, sans le savoir vous aviez déjà constitué le vôtre ?

A l'heure où les entreprises commencent à peine à se familiariser avec le concept du BigData et à en saisir les nouveaux usages, la révolution de la donnée déjà largement amorcée compte un nouveau venu: le Data Lake. Si le Data Lake ou « Lac de données » semble être un concept récent, on a pourtant commencé à y faire référence dès le début des années 2000. Certaines entreprises en ont fait un buzz-word (tel que le « Business Data Lake » de Pivotal & Capgemini), et d’autres ont exploité ce même champ lexical laissant apparaître des appellations telles que  « Entreprise Data Hubs » ou  « Data Platforms ». En définitive, toutes ces dénominations rejoignent un même concept: le Data Lake.

 

Comment définit-on un Data Lake ?

A l’origine, le Data Lake se contentait d’être un système informatique capable de stocker toutes sortes de données, quelle que soit leur forme (structurées ou non, brutes ou enrichies, volumineuses ou abondantes*). Afin que cette masse de données ait un sens, il fallait aussi que ce Data Lake puisse être accessible et manipulable au travers d’une infrastructure partagée, c’est-à-dire un environnement où l’on se déWeir of Roselendplace vers la donnée plutôt que d’amener cette donnée vers nous. Plus récemment, un nouveau critère est venu enrichir l'approche du Data Lake : la gouvernance de la donnée.

Cette dernière offre la possibilité aux entreprises de centraliser leurs données, non pas en supprimant ou en éteignant les systèmes actuels, mais en faisant converger toutes les données utiles vers ce Data Lake. Ces données peuvent prendre plusieurs formes : journaux de serveurs, CRM, extraits de réseaux sociaux, mails, données issues de capteurs, données géo-localisées, etc.

Le stockage de la donnée au format brut permet aux utilisateurs de la retravailler à loisir sans en altérer le format original, leur laissant de ce fait toute latitude pour repartir de cette base et d'explorer d'autres axes de recherche. C'est un modèle de stockage de la donnée dit « en étoile ».

La pénétration croissante des systèmes de stockage comme Hadoop a fortement renforcé l'apparition des Data Lakes. En effet, nombreux sont les utilisateurs qui stockent d'abord et posent les questions ensuite. Beaucoup d'entreprises n'utilisent en réalité qu'une faible partie des données qu'elles collectent (et ne collectent qu'une faible partie des données qu'elles génèrent et/ou traitent). Le stockage en tant que commodité leur permet désormais de pouvoir décider ultérieurement de la valeur à accorder à leurs données, et selon quels axes de valeurs. C'est par le biais de cet usage que peut entrer en scène un des autres concepts du monde de la data : le Data Brain.

 

 

L’avènement du Data Brain

Seul, le Data Lake ne dégage aucune valeur, si ce n’est celle de contenir de l’information. En effet,  la valeur de l’information est de plus en plus décisive dans nos sociétés et pour nos circuit  board brain background
gouvernements. C’est bien l’intelligence qu’on leur applique qui permet de créer une valeur nouvelle. Connaître la répartition et le nombre de produits vendus est une première étape; et relier ces produits avec d’autres produits achetés par une même personne permet déjà de construire un modèle de données. Ces modèles sont ainsi tout à fait utilisables pour améliorer l’expérience d'un client ou lui proposer d’autres produits à sa convenance.

Il est possible d'aller plus loin dans l'utilisation de ce cerveau numérique en reliant dans un second temps ces modèles  avec des informations a priori sans rapport immédiat. En incluant par exemple la météo ou encore l’état des transports, on peut établir une perspicacité prédictive. Analyser un contexte passé permet de se préparer à celui ou ceux qui suivront: le comportement actuel d'une personne permet-il de déduire les actions qu'il s'apprête à entreprendre ? C'est en maîtrisant la collecte de donnée que l'on va progressivement constituer un Data Brain : un système empirique possédant la capacité de se projeter.

Cette nouvelle intelligence n’est possible qu’en déversant l’information dans des Data Lakes. En effet, c’est la capacité des systèmes d’informations à stocker une donnée hétérogène
en très grand volume qui permet ces nouveaux usages. Tout l'enjeu réside désormais dans la capacité à traiter efficacement ces données.

 

(*) Il est souvent déterminant de saisir si les données seront présentes en grand nombre au travers d'enregistrements de faible taille, ou si elles seront réparties dans des fichiers d'une taille conséquente.

 

timothee_gautheron

Timothée Gautheron

DevOps Hadoop

Depuis longtemps passionné par les nouvelles technologies, et plus particulièrement leurs applications pour des systèmes novateurs, il m'a été permis de suivre la mouvance et l'évolution de certaines d'entre elles, depuis leurs premiers pas jusqu'à leur utilisation commune que certaines peuvent connaître aujourd'hui. 
Désormais je me concentre sur la thématique BigData et plus particulièrement l'écosystème Hadoop, fort d'une solide expérience dans le domaine je travaille aujourd'hui à vulgariser cette technologie et à mettre en oeuvre mes compétences pour la propager sur le marché français.

Suivez moi sur LinkedIn