Je vous livre,
chaque fois qu'il m'est permis, des retours
sur les conférences auxquelles je participe. Cette fois, c'est au tour
du Datawork Summit Munich 2017, conférence européenne sur les technologies Hadoop.
On part de
considérations générales, pour parler (un petit peu) produit, puis
méthodo-postures projet et avenir.
Le BigData est en train de changer en profondeur la
valeur de nos Systèmes d'Information. De l'automatisation de processus, la
valeur des SI est maintenant sur la
découverte de valeur activable. Le SI optimise désormais processus
industriels, relation client, identifie de nouveaux produits, modèles
économiques, …
Le BigData lui-même
évolue d'une vision très BI (basiquement la production de rapports) à la
consommation en temps réel de chiffres et d'analyses. La nature des données
analysées évolue également des données contenues dans le SI à des données
provenant d'objets connectés (dont les téléphones mobiles) et de réseaux
sociaux.
Ainsi la donnée et
le SI deviennent le lien entre le client digital (qui utilise moins les canaux
physiques) et l'entreprise. On voit ainsi des sujets clients qui étaient prioritairement affectés aux
canaux front office, revenir vers le backend.
La nature des
technologies BigData est massivement open source. Plusieurs raisons à cela : un
prix de licence attractif, la portabilité du code et la reproductibilité des
résultats sur différentes plateformes, et l'enseignement de technologies comme
R et Python dans les universités. Mais peu d'entreprises jouent le jeu de
l'open source en participant très peu aux communautés open source. Même si
l'investissement peu paraitre important, elles
y perdent au moins sur deux tableaux : le recrutement de talents, dont
la participation aux communautés est un des facteurs de choix de leur
employeur, et l'adéquation des roadmaps
des produits aux besoins des entreprises.
Sur les produits eux
même, Hadoop est désormais à sa version 3 (annoncée quelques jours avant le
summit). Elle tourne désormais sur JDK8, a largement fait évoluer Yarn
(compatibilité Docker, gestion améliorer des files, les services longs, …).
Plus de détails : https://hadoop.apache.org/docs/current
Les architectures
évoluent peu à peu vers une séparation du storage et du compute alors que les fondements mêmes d'Hadoop est de
multiplier des nœuds calculs et stockage. On parle désormais de BigData as a
service (https://linkedin.com/pulse/big-data-service-george-trujillo).
Vraie tendance ou moyen pour les éditeurs de reprendre la main sur l'open
source ?
Ce type de
conférence est surtout l'occasion de rencontrer des entreprises qui mènent ou
qui ont mené des projets BigData. Ici, des constructeurs automobiles, des
banques, des assureurs. Sans surprise, les architectures sont semblables
(Hadoop !) comme les divers retours d'expérience projet :
- construire une plateforme BigData, c'est d'abord construire une équipe pluridisciplinaire qui monte en compétence collectivement et progressivement
- la construction se fait globalement sur 4 ans : découverte (1 an), preuve de concept (1 an), industrialisation (2 ans)
- les principes de construction de la plateforme sont établis collectivement. Quelques éléments partagés fréquemment : disposer d'un lab, un seul datalake pour tous, une architecture hybride (onpremise & cloud), du devops, de l'amélioration continue, du selfservice pour différentes populations d'utilisateurs, de l'automatisation, ...
- les méthodes agile (type scrum) sont indispensables :
- on part petit mais on pense grand, d’où l'importance d'une vision partagée
- on s'assure que chacune des marches a de la valeur et est accessible pour tous
- on pivote si besoin
- le cycle de construction de chaque use case métier est le même : étude (cerner le besoin), découverte (comment les données présentes peuvent répondre et identifier celles qui manquent), spécification, implémentation, validation
- en enfin, la communication est primordiale pour montrer en continu aux sponsors, aux utilisateurs comment la plateforme évolue et ce qu'elle délivre
Merci David pour votre retour et votre synthèse très pertinente.
RépondreSupprimerEn fonction de la nature des projets Big Data, il existe pourtant des alternatives plus simples et rapides à mettre en oeuvre, et plus satisfaisantes en termes de ROI.
Snowflake par exemple permet de stocker des volumes illimités, et de les traiter de manière très performante, que ces données soient structurées ou semi-structurées (ce qui est le cas de la grande majorité des données chargées et traitées dans Hadoop). Snowflake propose une séparation du stockage et du traitement, dans le cloud, mais en s'appuyant sur SQL, technologie éprouvée et utilisée par des millions d'analystes dans le monde et par la plupart des outils de l'écosystème Data Warehouse-Business Intelligence.