ebook img

les techniques du big data PDF

68 Pages·2016·2.24 MB·French
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview les techniques du big data

Dans quelle mesure les techniques du Big Data permettront d’innover autour d’un Progiciel de Gestion Intégré ? Mastère Spécialisé Big Data 2015-2016 Hugues DESLANDES 18/11/2016 Table des matières REMERCIEMENTS .................................................................................................................................... 4 Avertissement - terminologie utilisée ..................................................................................................... 5 INTRODUCTION ....................................................................................................................................... 6 PARTIE 1 : EVOLUTIONS POSSIBLES DES PGI ........................................................................................... 8 1 Qu’est-ce qu’un PGI ? .................................................................................................................. 8 2 Evolution des PGI ....................................................................................................................... 10 2.1 Analyse bibliographique .................................................................................................... 11 2.2 Synthèse ............................................................................................................................ 12 3 Cas du progiciel Reflex WMS ..................................................................................................... 13 3.1 Présentation générale ....................................................................................................... 13 3.2 Positionnement dans le système d’information ............................................................... 14 3.3 La chaîne d’approvisionnement ........................................................................................ 14 4 Analyse des besoins exprimés autour de Reflex WMS.............................................................. 16 4.1 Supply Chain et Analytics .................................................................................................. 16 4.2 Point de vue des industriels .............................................................................................. 19 4.3 Le point de vue de clients de Reflex .................................................................................. 20 4.4 Le contexte de l’éditeur Hardis Group .............................................................................. 20 4.5 Synthèse ............................................................................................................................ 21 PARTIE 2 : LES TECHNIQUES DU BIG DATA ............................................................................................ 23 1 Introduction ............................................................................................................................... 23 1.1 Les 3 V du Big Data ............................................................................................................ 23 1.2 Les techniques du Big Data ................................................................................................ 23 2 Systèmes distribués ................................................................................................................... 24 2.1 Définition ........................................................................................................................... 24 2.1 Caractéristiques / objectifs ................................................................................................ 24 2.2 Un exemple avec HDFS ...................................................................................................... 24 3 Algorithme : MapReduce........................................................................................................... 25 3.1 Concept et illustration ....................................................................................................... 25 3.2 Utilisation .......................................................................................................................... 27 4 Bases de données NoSQL .......................................................................................................... 27 4.1 Concepts ............................................................................................................................ 27 4.2 Usages................................................................................................................................ 28 4.3 Equilibre Cohérence - Disponibilité ................................................................................... 28 5 Traitement de flux de données ................................................................................................. 29 5.1 Définitions, terminologie ................................................................................................... 29 5.2 Principes ............................................................................................................................ 29 5.3 Exemples ............................................................................................................................ 31 6 Data Analytics ............................................................................................................................ 31 2 6.1 Définitions ......................................................................................................................... 31 6.2 Les différents domaines d’Analytics .................................................................................. 32 6.3 Data Science, Machine Learning ....................................................................................... 34 7 Eléments complémentaires ....................................................................................................... 35 7.1 Open Source ...................................................................................................................... 35 7.2 Le Cloud ............................................................................................................................. 35 7.3 Calculs in-memory ............................................................................................................. 36 PARTIE 3 : EXPERIMENTATION AVEC LES TECHNIQUES DU BIG DATA ........................................... 37 1 Le « Data Lake » ou lac de données : ........................................................................................ 39 1.1 Le concept du Data Lake.................................................................................................... 39 1.2 Les outils utilisés ................................................................................................................ 39 1.3 La mise en œuvre pratique ................................................................................................ 41 1.4 Regard critique et proposition(s) ...................................................................................... 42 2 Les flux de données / Gestion des événements ........................................................................ 43 2.1 Les concepts existants : Les logs et le principe d’immuabilité .......................................... 43 2.1 Les questions soulevées .................................................................................................... 44 2.2 Les outils utilisés ................................................................................................................ 49 2.3 La mise en œuvre pratique ................................................................................................ 50 2.4 Regard critique et proposition(s) ...................................................................................... 53 3 Architecture lambda .................................................................................................................. 54 3.1 Les principes ...................................................................................................................... 54 3.2 Les questions soulevées .................................................................................................... 57 3.3 La mise en œuvre pratique ................................................................................................ 57 3.4 Regard critique et proposition(s) ...................................................................................... 57 4 Limites de l’étude ...................................................................................................................... 58 5 Synthèse des expérimentations ................................................................................................ 59 SYNTHESE .............................................................................................................................................. 60 CONCLUSION ......................................................................................................................................... 62 GLOSSAIRE ............................................................................................................................................. 63 BIBLIOGRAPHIE ...................................................................................................................................... 64 3 REMERCIEMENTS Je tiens à remercier Christian Senet, Directeur Technique chez Hardis Group, pour la confiance qu’il m’a accordée en m’accueillant dans son service, pour m’avoir prodigué de nombreux conseils et avoir répondu patiemment à mes questions techniques, parfois naïves. Je remercie Alain Rivet, tuteur GEM, pour la disponibilité dont il a fait preuve tout au long des 6 derniers mois, pour le soutien régulier qu’il m’a apporté face à cet exercice nouveau pour moi, pour ses commentaires pertinents. Ce document n’aurait pas vu le jour sans le soutien, tout au long de la formation, de l’ensemble des élèves de la promo 2015-2016 du Mastère spécialisé Big Data : se retrouver sur les bancs de l’école, n’aurait pas été aussi agréable sans cette solidarité collective à laquelle chacun a contribué. Merci bien sûr à tous les collègues de Hardis Group qui ont accueilli simplement le « jeune stagiaire » que j’étais. J’adresse également mes remerciements à Fanny Rabouille et Claudia Roncancio, responsables du mastère spécialisé Big Data, ainsi qu’à l’ensemble des enseignants et intervenants qui m’ont transmis l’envie et le plaisir de me plonger dans ce grand bain qu’est le Big Data. Gérard, ta relecture et tes commentaires pertinents m’ont soutenu dans la dernière ligne droite. Merci enfin à ma famille pour son soutien quotidien et les encouragements à poursuivre le travail. Ils peuvent tout faire entrer dans leurs calculs sauf la grâce, et c’est pourquoi leurs calculs sont vains. Christian Bobin 4 Avertissement - terminologie utilisée Les sigles et terminologies anglo-saxonnes ont été conservés quand les termes français correspondant ne font pas partie du langage courant ou quand la signification de la traduction française nous semble trop éloignée du terme anglais. Ainsi le terme « Big Data » n’est pas traduit mais est utilisé avec des initiales en capitale ; de même pour le terme Analytics ou Data Analytics. Les termes ERP (Entreprise Ressource Planning) et PGI (Progiciel de Gestion Intégré) sont souvent considérés équivalents ; pourtant l’ERP s’applique à des logiciels gérant l’entreprise au complet, alors que PGI est un terme plus générique pour des progiciels ayant un périmètre fonctionnel quelconque. Le glossaire en fin de document fait le lien entre les acronymes français et anglais utilisés. 5 INTRODUCTION Les Progiciels de Gestion Intégrés (PGI) sont des outils informatiques destinés à gérer différentes fonctions au sein d’une entreprise. Depuis plus de 30 ans ils contribuent au bon fonctionnement et à l’efficacité des entreprises : ils permettent d’organiser les processus, le plus souvent selon des bonnes pratiques (« best practices ») que les revendeurs proposent lors de la mise en place de leur solution. Dans la mesure où les PGI enregistrent l’information du fonctionnement de l’entreprise, ils contribuent également à la diffusion et au partage d’information, à la détection de dysfonctionnements. D’un point de vue technique, les systèmes d’information se sont beaucoup structurés autour de ces outils qui se sont mis à gérer de plus en plus de fonctions ou de processus de l’entreprise, intégrant à chaque étape les nouvelles sources de données dans la base de données centrale autour de laquelle le PGI se développe. Il y a 20 ans, dans le monde de l’entreprise ces outils étaient considérés comme incontournables, indispensables pour la réussite d’une entreprise. Aujourd’hui, ces outils sont bien présents et efficaces et ne font plus vraiment la une des journaux : l’attention du monde de l’entreprise est tournée vers le Big Data, le nouveau mot clé dont tout le monde parle ! Qu’est ce qui se cache derrière ce Big Data ? Le terme traduit avant tout l’augmentation importante du volume des données produites dans le monde. Les raisons sont économiques et technologiques : les prix des processeurs des ordinateurs ainsi que le cout du stockage des données ont baissé de manière exponentielle depuis plusieurs années ; les échanges de données sont facilités par les réseaux plus performants et déployés presque partout sur la planète. Il n’existe pas de définition officielle de ce qu’est le Big Data ; l’article de Doug Laney en 2001 est souvent cité comme origine de la définition des 3 V : il prédit l’explosion des données selon 3 axes : Volume, Vitesse, Variété. Le volume bien sûr pour la quantité de données, la vitesse pour la rapidité avec laquelle les données sont produites et s’échangent, et enfin, la variété pour décrire la diversité des données, de leur format et structure. Quand il est question de données, un autre mot clé est également souvent cité : Analytics. Il s’agit de rechercher, d’expliquer et de communiquer les informations qui sont dans les données : les méthodes utilisées regroupent les statistiques, l’informatique et la visualisation de données. Depuis quelques années maintenant, les journaux spécialisés nous avertissent que le Big Data et l’Analytics sont là et qu’il va falloir absolument les intégrer dans les entreprises pour pouvoir créer de la valeur. Les applications qui nous sont montrées portent plus souvent sur le web, le e-commerce ; Les PGI sont- ils concernés par ce changement ? Certes ils gèrent des fonctions de plus en plus étendues sur des volumes de données de plus en plus grand, avec des clients qui veulent des résultats de plus en plus rapidement mais les techniques du Big Data s’appliquent elles ? Le Big Data est-il une évolution naturelle des PGI ? Pour avoir travaillé pendant des années autour de différents PGI, il m’a semblé intéressant de creuser le lien qu’il pourrait exister un entre les deux sujets. Il s'agit donc de s'interroger d'une part sur les possibilités de création de valeur que les utilisateurs de progiciel de gestion peuvent espérer avec le Big Data mais surtout de voir comment un éditeur de PGI peut contribuer lui aussi à cette création de valeur en proposant des solutions techniques pertinentes. Concrètement, pour ouvrir des portes à l'innovation et permettre la création de nouvelles offres de services, comment faire évoluer l'architecture technique des PGI en introduisant des méthodes et outils issus du Big Data, sans pour autant remettre en cause l’expérience accumulée depuis des années dans les développements successifs? Nous illustrerons notre réflexion par un exemple concret de PGI : Reflex WMS, progiciel de gestion intégré pour la gestion d’entrepôt, édité par la société Hardis Group. Nous expérimenterons des outils 6 du Big Data pour comprendre les possibilités offertes par ces outils dans un tel contexte et proposer des nouveaux services innovants. Une première partie présentera les besoins d’évolutions pressenties par les éditeurs de logiciel et nous traiterons d’un exemple concret avec le cas de Reflex WMS pour la gestion des entrepôts, maillon de la chaine d’approvisionnement. Ensuite nous décrirons les principales techniques qui sont derrière le Big Data. Nous verrons alors comment certaines architectures techniques et quelques outils ont pu être testés pour voir ce qui pourrait permettre d’innover autour d’un tel logiciel. La conclusion mettra en évidence les éléments de réponse et proposera des recommandations et des axes concrets de travail. 7 PARTIE 1 : EVOLUTIONS POSSIBLES DES PGI Nous commencerons par rappeler ce qu’on entend par un Progiciel de Gestion Intégré (PGI) puis nous regarderons les besoins qui sont exprimés pour leur évolution à venir. Enfin nous nous intéresserons plus particulièrement au cas de Reflex WMS, un progiciel de gestion d’entrepôt édité par la société HARDIS : un PGI qui se concentre sur un des maillons de la Supply Chain, la gestion des entrepôts. Nous décrirons alors les évolutions souhaitées dans le contexte actuel de l’arrivée du Big Data. 1 Qu’est-ce qu’un PGI ? Le Groupe CXP, premier cabinet européen indépendant d’analyse et de conseil dans le domaine des logiciels, des services informatiques et de la transformation numérique donnait en 1994 une définition des logiciels de gestion intégrés1 : Pour être intégré, un progiciel de gestion doit :  émaner d'un concepteur unique,  garantir à l'utilisateur l'unicité d'information assurée par la disponibilité de l'intégralité de la structure de la base de données à partir de chacun des modules, même pris individuellement,  reposer sur une mise à jour en temps réel des informations modifiées dans tous les modules affectés,  fournir des pistes d'audit basées sur la garantie d'une totale traçabilité des opérations de gestion,  couvrir soit une fonction (ou filière) de gestion, soit la totalité du système d'information de l'entreprise. La terminologie anglo-saxonne équivalente pour le PGI est « Entreprise Resource Planning », pour ERP : à cause du mot « Entreprise » il est fréquent d’interpréter que l’ERP ou le PGI couvre tout le périmètre fonctionnel de l’entreprise, mais ce n’est pas nécessairement le cas. Autrement dit, le mot important dans ERP est Intégration … Les fonctions couvertes par un PGI varient donc énormément d’une entreprise utilisatrice à une autre ; parmi les fonctions que l’on rencontre nous trouvons :  gestion des produits ou articles,  gestion des ventes : enregistrement et le suivi de toutes les commandes,  gestion des achats : que ce soit pour acheter des matières premières, des produits finis ou des prestations de service,  gestion de la fabrication/production : les coûts et les délais sont réduits grâce à une synchronisation des opérations,  gestion des stocks : les commandes sont traitées en temps réel ce qui permet une réduction du temps de traitement en logistique,  gestion des relations fournisseurs : les délais de livraison et que les coûts d'approvisionnement sont réduits grâce à une bonne stratégie relationnelle,  Gestion des relations clients (CRM pour Customer Relationship Management),  gestion analytique, comptable et financière,  gestion des ressources humaine : paye, recrutement, formation … 1 Wikipédia attribue cette définition à des informations publiées par le CXP en 1994. Nous n’avons pas pu confirmer cette origine mais cette définition est utilisée chez plusieurs éditeurs ou prestataires de service. 8 Le PGI intègre en un seul ensemble ce qui était autrefois des logiciels indépendants, reliés entre eux par des passerelles. Ce genre d’outil devient alors, pour son périmètre fonctionnel, un point central du système d’information et de l’organisation :  Il synchronise les traitements,  Il permet l’optimisation des processus couverts,  Il garantit l’unicité des informations qu’il contient,  Il contribue aux décisions opérationnelles ou stratégiques. Le terme ERP vient à l’origine de l’utilisation du terme « Manufacturing Resource Planing » dans les entreprises manufacturières (Lequeux, 2011) pour désigner la planification des ressources de production. Au début des années 1990, ERP était utilisé pour qualifier quelques éditeurs qui couvraient effectivement toutes les fonctions de l’entreprise. Leurs clients étaient surtout des grandes entreprises ou administrations, ce n’est qu’une dizaine d’année après que les ERP sont devenus plus classiques et ont commencé à concerner des entreprises de taille plus réduite. Les principaux éditeurs aujourd’hui sont SAP, Oracle et sa suite Business, Sage, Infor et Microsoft (Dynamics). Ils se partagent environ la moitié du marché de nouvelles implantions d’ERP (figure 1) ; ces chiffres sont à prendre avec prudence, la diversité des périmètres peut rendre les comparaisons délicates, cependant la part des petits éditeurs reste très importante. Répartition du marché des ERP par Editeurs (Colombus, 2014) Les éditeurs de PGI cherchent souvent à proposer d’avantages de fonctionnalités, à couvrir de plus en plus de domaines dans l’entreprise. Leur périmètre fonctionnel s’étend donc, mais l’ERP reste le référentiel de l’entreprise pour toutes les données principales (clients, fournisseurs, articles, etc…). C’est donc une vision très centralisée qui se développe autour de la base de données, toujours afin de garantir que chaque donnée clé est enregistrée une seule fois dans le système. Les décideurs ont toujours besoin d’un maximum de connaissances à partir des données de base ; Ils génèrent des requêtes complexes sur le système qui nécessitent de parcourir de nombreuses tables avec des jointures, de réaliser des agrégats : de telles requêtes pénalisent fortement le système ce qui pourrait perturber le fonctionnement normal du PGI et donc de l’entreprise. 9 Quand les outils de Business Intelligence (BI) ont commencé à se développer, l’architecture centrale n’a pas été remise en cause, mais pour permettre de faciliter les requêtes pour les décideurs, les données du système sont dupliquées et éventuellement prétraitées pour alimenter un entrepôt de données ou Entreprise Data Warehouse (EDW) (figure 2). Application Couche accès aux Application type BI données EDW Schéma de principe d’un PGI L’ERP est central dans l’entreprise, à la fois pour les processus et pour le système d’information. Sa base de données constitue une référence pour toutes les données de l’entreprise ; l’évolution de l’ERP est un enjeu majeur pour les performances de l’entreprise. 2 Evolution des PGI Quel que soit leur domaine d’activité, les entreprises sont amener à évoluer : les raisons qui les poussent à changer sont nombreuses : elles peuvent être externes, par exemple parce qu’un concurrent fournit le même produit ou service mais 10% moins cher ou parce que les besoins des clients changent ; cela peut être une raison interne par remise en cause de l’organisation ou de la façon de gérer un processus. Les PGI ou ERP contribuent pour une importante part à la gestion de la plupart des entreprises depuis plusieurs années maintenant. Il est donc naturel que les PGI évoluent pour accompagner ou anticiper les évolutions des entreprises. Dans quelle direction les utilisateurs de PGI souhaitent-ils voir évoluer leur outil ? Nous parcourrons quelques articles pour comprendre ces éléments et verrons comment l’interpréter dans le cadre de notre étude. 10

Description:
Ainsi le terme « Big Data » n'est pas traduit mais est utilisé avec des initiales en capitale ; de même pour le terme .. de paradigme et de mettre en œuvre les techniques nouvelles du Big Data. Ainsi le .. mise en place et 30% ont une initiative pour une mise en place avant 6 à 12 mois. Il es
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.