Big Data, Data Lake, Hadoop, vous avez tout suivi ? Et SAP Leonardo vous connaissez ? Alors vous avez sans doute entendu aussi parler de SAP Data Hub ?

Vous êtes-vous aussi demandé :

  • En quoi SAP Data Hub est différent d’un autre EIM/applicatif SAP et
  • Comment il s’intègre dans le paysage des (déjà bien nombreux) applicatifs SAP ?

SAP Data Hub est un composant de SAP Leonardo, lui-même basé sur SAP Cloud Platform (en savoir + sur SCP c’est par ici).

Vous suivez toujours ?

Pour la faire simple :
SAP Data Hub aide les entreprises à mieux gérer la communication entre plusieurs environnements de données. Le tout en se connectant directement aux informations à la source et non en les déplaçant vers un site ou un hub centralisé (contrairement à ce que le nom peut insinuer).

Comment ?

  1. Il se connecte directement à tous les applicatifs SAP ou non,
  2. Il va créer des chaines de traitements,
  3. Il va appeler des process sur chaque système, qui ont des liens entre eux.

Toujours plus « parlant » avec un exemple :
On lance une alimentation dans BW/4HANA, qui sera exporté vers un cluster, qui lancera un traitement de machine learning.

On va revenir en détail sur les fonctionnalités, mais avant cela, mettons-nous en situation !

Dans un environnement BI d’une entreprise, on pourrait y trouver du S/4HANA, BW/4HANA, HANA, BO, Hadoop ou encore tout un tas d’autres applicatifs.

Classique : on trouve dedans une grande variété de sources de données dont les données peuvent être silotées et pas toutes connectées entre elles.

Et ça entraine son lot de problèmes :

  • Sébastien n’accède pas assez rapidement à ces infos ! Les infos sont silotées.
    Du coup c’est toujours complexe, long et coûteux pour connecter les données Big Data aux données de l’entreprise.
    Il est ralenti et donc pénalisé dans son travail (et ce n’est pas le seul).
  • Alexia doute de la fiabilité de ses données !
    Les différents paysages d’entreprise (DataLake, Hadoop, des EDW, Cloud, applications d’entreprise, etc.) rendent difficile la gouvernance des données.
    Elle n’est pas sûre de la fiabilité de ses données et elle sait que l’analyse peut être dangereuse pour les futures prises de décision.
  • Patrick voit sa productivité doublée à cause de toutes ses apps !
    Source de données sans connecteurs ou encore format de données non compatible ?
    La multitude d’outils demande du travail pour produire des scénarios de données.
    Patrick n’accède pas aussi vite qu’il le souhaite à ses résultats de données.

On ne dit pas que SAP Data Hub résout tous les pépins mais il peut aider.

Et pour faire ça, la solution s’articule autour de 3 fonctionnalités clés :

  • L’orchestration des données et création de pipelines (ou flux en VOSTFR) de données,
  • La gouvernance des opérations,
  • Le partage de données et l’intégration des données.

Orchestration des données et création de pipelines de données :

En véritable chef d’orchestre, SAP Data Hub gère des workflows d’informations et exécute des processus personnalisés.

Pour ça, SAP Data Hub crée des pipelines (ou flux de données) composés d’opérations réutilisables et configurables (comme la préparation des données, processus ETL, de l’exécution de codes, les opérations fonctionnelles, etc.). Il traite les données extraites de sources diverses et exécute des processus personnalisés et automatisés.

Petite précision : la notion de hub n’est pas nouvelle mais contrairement aux Hub classiques (qui importent généralement les données dans un cluster), elle maintient les données. C’est-à-dire qu’elle déplace les données seulement quand elles deviennent utiles.

Gouvernance et opérations :

Quand on gère un environnement Big Data, on se pose rapidement la question de la gouvernance :

  • Les données sont-elles en conformité avec les politiques de données de votre entreprise ?
  • Comment gérer les autorisations d’accès aux différents environnements ?

Pour répondre à ces différentes problématiques, SAP Data Hub met à disposition tout un référentiel de métadonnées qui stocke les informations des différents applicatifs. L’interface permet :

  • d’assurer les politiques d’accès,
  • sécuriser les données de manière dynamique, de la source à la destination,
  • masquer et anonymiser les données pour protéger les sources sensibles.

Intégration et partage de données efficace :

Autre atout : la solution donne accès à de nombreux types de sources de données :

  • dans le cloud, ou on-premise ou une configuration hybride,
  • à la fois SAP et non-SAP.

On dit donc au revoir au problème de compatibilité de type de source de données (CSV, API, services web…). Par la même occasion, la compatibilité avec l’environnement technologique open source permet de tirer parti d’autres solutions de traitement (maison ou non) comme SAP Vora, SAP HANA, Apache Hadoop ou Apache Spark.

Cette ouverture permet d’avoir une vue détaillée du paysage de données de l’ensemble des applicatifs sous un seul écran (fiorisé d’ailleurs) !

Coté design et ergonomie, on peut dire que le cockpit est assez graphique.
Plutôt utile pour modéliser les flux et les pipelines ou encore déclencher, redémarrer ou annuler les tâches en cas d’échec. En 1 coup d’œil, on s’assure que les données circulent bien et au bon endroit !

Voyez par vous-même :

 

La différence avec les autres EIM/applicatifs SAP ?

Savez-vous combien de % de données collectées sont réellement exploitées aujourd’hui en entreprise ? ->Un parapluie Censio offert à celui qui nous apporte en 1e la bonne réponse dans les commentaires 🙂 indice : c’est inférieur à 10%.

Pourquoi ? Au-delà des données, ce sont les sources de données qui augmentent. Il faut collecter toutes les sources de données et sans les dupliquer (c’est mieux). Car c’est ce qui bloque l’exploitation des données :

  • On a des données stockées un peu partout qui proviennent d’environnements pas forcément compatibles entre eux.
  • Mais pour les connecter et les analyser, on doit extraire toutes les données même celles qui ne sont pas utiles.

Et bien maintenant, imaginez une tour de contrôle d’aéroport (c’est bientôt les vacances, l’image devrait venir facilement). La tour aérienne, au même titre que SAP Data Hub, permet de contrôler à distance tous les avions, peu importe leurs provenances, sans tous les regrouper au même endroit.

C’est la différence avec les autres EIM. La promesse SAP Data Hub : connecter toutes les sources de données au même endroit et sans les déplacer, donc pas de duplication de données. SAP Data Hub ne les déplace QUE quand elles deviennent utiles. Une belle innovation SAP !

 

Laisser un commentaire