a propos

Je suis architecte d'entreprise dans une grande entreprise publique de transport (devinez !) et depuis quelques années impliqué dans des sujets data "en grand". Vous trouverez dans ce blog quelques modestes réflexions liées à mon quotidien, les problématiques et réponses que j'ai pu trouver. N'hésitez pas à interagir !

#DWS17


Je vous livre, chaque fois qu'il m'est permis,  des  retours  sur les conférences auxquelles je participe. Cette fois, c'est au tour du Datawork Summit Munich 2017, conférence européenne  sur les technologies Hadoop.


On part de considérations générales, pour parler (un petit peu) produit, puis méthodo-postures projet et avenir.


Le BigData  est en train de changer en profondeur la valeur de nos Systèmes d'Information. De l'automatisation de processus, la valeur des SI est maintenant sur la  découverte de valeur activable. Le SI optimise désormais processus industriels, relation client, identifie de nouveaux produits, modèles économiques, …

Le BigData lui-même évolue d'une vision très BI (basiquement la production de rapports) à la consommation en temps réel de chiffres et d'analyses. La nature des données analysées évolue également des données contenues dans le SI à des données provenant d'objets connectés (dont les téléphones mobiles) et de réseaux sociaux.

Ainsi la donnée et le SI deviennent le lien entre le client digital (qui utilise moins les canaux physiques) et l'entreprise. On voit ainsi des sujets clients  qui étaient prioritairement affectés aux canaux front office, revenir vers le backend.


La nature des technologies BigData est massivement open source. Plusieurs raisons à cela : un prix de licence attractif, la portabilité du code et la reproductibilité des résultats sur différentes plateformes, et l'enseignement de technologies comme R et Python dans les universités. Mais peu d'entreprises jouent le jeu de l'open source en participant très peu aux communautés open source. Même si l'investissement peu paraitre important, elles  y perdent au moins sur deux tableaux : le recrutement de talents, dont la participation aux communautés est un des facteurs de choix de leur employeur, et l'adéquation des  roadmaps des produits aux besoins des entreprises.


Sur les produits eux même, Hadoop est désormais à sa version 3 (annoncée quelques jours avant le summit). Elle tourne désormais sur JDK8, a largement fait évoluer Yarn (compatibilité Docker, gestion améliorer des files, les services longs, …). Plus de détails : https://hadoop.apache.org/docs/current

Les architectures évoluent peu à peu vers une séparation du storage et du compute alors  que les fondements mêmes d'Hadoop est de multiplier des nœuds calculs et stockage. On parle désormais de BigData as a service (https://linkedin.com/pulse/big-data-service-george-trujillo). Vraie tendance ou moyen pour les éditeurs de reprendre la main sur l'open source ?


Ce type de conférence est surtout l'occasion de rencontrer des entreprises qui mènent ou qui ont mené des projets BigData. Ici, des constructeurs automobiles, des banques, des assureurs. Sans surprise, les architectures sont semblables (Hadoop !) comme les divers retours d'expérience projet :

  • construire une plateforme BigData, c'est d'abord construire une équipe  pluridisciplinaire qui monte en compétence collectivement et progressivement
  • la construction se fait globalement sur 4 ans : découverte (1 an), preuve de concept (1 an), industrialisation (2 ans)
  • les  principes de construction de la plateforme  sont établis  collectivement. Quelques  éléments  partagés fréquemment : disposer d'un lab, un seul datalake pour tous, une architecture hybride (onpremise & cloud), du  devops, de l'amélioration continue, du selfservice pour différentes populations d'utilisateurs, de l'automatisation, ...
  • les méthodes agile (type scrum) sont indispensables :
    • on part petit mais on pense grand, d’où l'importance d'une vision partagée
    • on s'assure que chacune des marches  a de la valeur et est accessible pour tous
    • on pivote si besoin

  • le cycle de construction de chaque use case métier est le même : étude (cerner le besoin), découverte (comment les données présentes peuvent répondre et identifier celles qui manquent), spécification, implémentation, validation
  • en enfin, la communication est primordiale pour montrer en continu aux sponsors, aux utilisateurs comment la plateforme évolue  et ce qu'elle délivre


1 commentaire:

  1. Merci David pour votre retour et votre synthèse très pertinente.
    En fonction de la nature des projets Big Data, il existe pourtant des alternatives plus simples et rapides à mettre en oeuvre, et plus satisfaisantes en termes de ROI.

    Snowflake par exemple permet de stocker des volumes illimités, et de les traiter de manière très performante, que ces données soient structurées ou semi-structurées (ce qui est le cas de la grande majorité des données chargées et traitées dans Hadoop). Snowflake propose une séparation du stockage et du traitement, dans le cloud, mais en s'appuyant sur SQL, technologie éprouvée et utilisée par des millions d'analystes dans le monde et par la plupart des outils de l'écosystème Data Warehouse-Business Intelligence.

    RépondreSupprimer