Retail Shake : Expert en web scraping pour valoriser vos données

Que vous soyez une marque ou un retailer , notre solution de web scraping est conçue pour vous aider à extraire des informations vitales à partir du vaste océan de données sur le web.

Qu’est-ce que le Scraping de Données ?

 

Le scraping de données, aussi connu sous les noms de web scraping ou data scraping, est le processus automatisé d’extraction d’informations à partir de sites web. Que vous cherchiez à collecter des prix, des avis de clients, des données de marché ou toute autre information pertinente, le scraping de données peut vous aider à obtenir ces données de manière rapide et efficace.

Est-ce Légal ?

 

Une question qui revient souvent est la légalité du scraping de données. En règle générale, le scraping de données n’est pas illégal en soi. Cependant, il est essentiel de respecter les conditions d’utilisation des sites web que vous scrapez et de vous assurer que vous n’enfreignez pas les lois sur la protection des données et la vie privée. Chez Retail Shake, nous nous engageons à respecter toutes les réglementations pertinentes et à vous fournir des outils conformes aux normes juridiques en vigueur.

Comment Faire du Web Scraping ?

Avec Retail Shake, faire du web scraping n’a jamais été aussi simple. Notre interface conviviale vous permet de configurer facilement vos requêtes de scraping, de sélectionner les données pertinentes et de les extraire en quelques clics seulement. Que vous soyez un débutant ou un expert en technologie, notre plateforme intuitive vous guide à chaque étape du processus, vous permettant de transformer rapidement des pages web en données exploitables.

 

Pourquoi Choisir Retail Shake ?

  • Puissant et Flexible: Notre technologie de pointe vous permet de scraper des données à grande échelle tout en offrant une flexibilité maximale dans la personnalisation de vos requêtes.

  • Conforme à la Réglementation: Nous nous engageons à respecter les normes juridiques en vigueur en matière de scraping de données, vous offrant ainsi une tranquillité d’esprit totale.

  • Support Expert: Notre équipe d’experts est là pour vous aider à chaque étape du processus, que ce soit pour la configuration initiale, le dépannage technique ou toute autre question que vous pourriez avoir.

Prêt à Commencer ?

Ne laissez pas les données précieuses sur le web vous échapper. Rejoignez Retail Shake dès aujourd’hui et commencez à transformer les données en action pour votre entreprise.

   DÉCOUVREZ AUSSI : 

Comprendre l’importance cruciale de la qualité des données

La qualité des données est bien plus qu’un simple impératif ; c’est un pilier essentiel pour garantir le succès et la pérennité des entreprises. Disposer d’une donnée de qualité, c’est garantir des analyses fiables, des prises de décisions avisées, et éviter des erreurs et pertes dommageables.

C’est pourquoi il est impératif d’avoir une confiance absolue en la qualité de ces données avant de les exploiter ou de les diffuser.

La qualité des données ne se limite pas seulement à leur exactitude technique, mais également à leur adéquation avec les besoins spécifiques des utilisateurs métiers. Les données erronées ou non mises à jour peuvent non seulement altérer la performance opérationnelle, mais aussi compromettre la réputation et la compétitivité de l’entreprise.

Pour mesurer cette qualité, deux types de règles sont essentiels : les règles techniques et les règles métier. Les règles techniques évaluent des critères intrinsèques à la donnée, tels que la complétude, la validité et la fraîcheur. Tandis que les règles métier complètent cette évaluation en définissant une valeur fonctionnelle à la donnée, en assurant sa cohérence et son accessibilité selon son utilisation spécifique.

Gregory, notre expert data, répond à toutes nos questions :

Pourquoi la qualité des données est-elle si cruciale dans le domaine de la veille concurrentielle et tarifaire ?

→ Nos clients veulent pouvoir s’appuyer sur des données fiables dans leur processus de prise de décisions.

Comment Retail Shake s’assure-t-elle de la fiabilité et de l’exactitude des données qu’elle collecte et analyse ?

→ En plus des vérifications manuelles à chaque étape du raffinage de la donnée,le ‘datacrop’ se charge des derniers contrôles avant enregistrement en base.

Quels sont les indicateurs clés de qualité des données que tu surveilles et comment les améliores-tu continuellement ?

→ Principalement le nombre d’items collectés par chaque spider. Des graphes organisés par secteurs d’activités nous aident lors de nos contrôles.

Une granularité plus fine de ces indicateurs vont nous aider à mieux mesurer la qualité de nos campagnes de collectes.

Quel cycle utilises-tu pour gérer la qualité des données ?

– Tests du scraping en local sur un périmètre restreint ;

– Écriture de tests automatiques des données extraites par chaque spider;

– Création d’un dashboard sous forme de graphes pour quantifier les données collectées.

Peux-tu donner un exemple concret de situation où la qualité des données a fait toute la différence pour un client ?

→ Notre plus gros client, Leroy Merlin utilise la solution Retail Shake pour orienter sa politique de prix et adapter en fonction l’affichage des tarifs en magasin. 

La qualité de la donnée impacte directement et concrètement les prix des produits pour le client final. 

Comment Retail Shake gère les problèmes de qualité des données, telles que les données manquantes ou erronées ?

→ Il arrive parfois qu’une information essentielle soit manquante. Par exemple des gtins. Dans ce cas, on va chercher à compléter la fiche produit via d’autres plateformes.

Pour les données erronées, nous avons un dispositif (datacrop) entre le processus de collecte et le processus d’injestion en base, dont la fonction est de normaliser et/ou corriger les items. Par exemple, les enseignes n’utilisent pas toutes la même notation pour indiquer les quantités. Certaines vont utiliser ‘kg’ et d’autres ‘kilogramme’.

Quels sont les principaux défis que les clients rencontrent en matière de qualité des données et comment Retail Shake les aide-t-elle à les surmonter ?

→ La veille tarifaire se complique dès lors que le client souhaite comparer des produits type ‘mdd’.

Notre solution propose un mécanisme de matching (à la tinder) qui présélectionne les items candidats à la comparaison.

En quoi la qualité des données que tu fournis contribue-t-elle à renforcer la confiance et la fidélité des clients ?

→ Une bonne qualité des données résulte souvent d’une bonne compréhension des besoins du client. Il se sent en confiance et cela l’incite à plus utiliser notre solution.

Il peut aussi faire des demandes de nouvelles fonctionnalités. Ce dernier aspect est aussi très important pour étoffer notre service.

Comment Retail Shake assure-t-elle la transparence et la traçabilité des données fournies aux clients ?

Transparence : Nous présentons les données au client sur deux modes :

  1. L’application Retail Shake
  2. Les exports dans divers formats

Dans les deux cas, le client sait d’où vient sa donnée et quand a-t-elle été collectée.

Traçabilité : Toutes nos données sont horodatées et tracées. Nous savons quel spider a collecté la donnée, à quel moment et à quelle date remonte sa dernière mise à jour.

Quelles sont les technologies ou méthodologies que tu utilises pour garantir la qualité des données et leur pertinence pour les clients ?

→ Je teste actuellement ‘dbt-core’, outil open source pour tester la conformité des données aux exigences clients. La galaxie des outils disponibles est vaste et très dynamique. Je suis en veille constante.

Quelles sont les innovations récentes que tu as introduites pour améliorer encore davantage la qualité des données et répondre aux besoins changeants des clients ?

→ Une version preprod notre orchestrateur de tâches (Airflow) pour la production d’exports à destination de nos clients.

Ainsi, l’équipe tech peut contrôler la qualité des données avant la mise en production. Cette plateforme de préproduction est aussi un genre de bac à sable. L’idée est de permettre de déployer facilement de nouveaux outils directement intégrés à notre workflow.

Conseiller des outils qui facilitent la QA et réduisent les actions manuelles. Par exemple, j’ai proposé à notre CSM Hannah d’utiliser Selenium (https://www.selenium.dev/selenium-ide/) pour enregistrer et rejouer ses actions de vérifications sur les sites que nous scrappons.

“Mon métier de Data Scientist” – Etienne Candelot

Aujourd’hui marque le dernier jour de notre semaine interne des développeurs chez Retail Shake. On vous propose de découvrir avec Etienne, futur doctorant de l’équipe et actuellement en CDD, sa profession de Data Scientist, élue métier le plus sexy du XXIe siècle par la Harvard Business Review. 

Qu’est-ce qu’un Data Scientist ? 

Un Data Scientist est un scientifique des données. Expert en analyse de données, avec très souvent des compétences managériales et marketing, le ou la Data Scientist récolte, organise et analyse des données croisées afin d’identifier des tendances, faire des prédictions et proposer des solutions qui profitent à l’entreprise. 

Quelles sont les missions d’un Data Scientist ? 

Les missions d’un Data Scientist s’articulent souvent autour d’une problématique de recherche. Il s’appuie alors sur le traitement de données, des statistiques et l’aspect prédictif de l’IA ( Intelligence Artificielle) pour répondre à cette problématique.  

C’est un travail à quatre (4) axes :

  • Comprendre les problématiques de l’entreprise liées à la Big Data
  • Trouver une modélisation statistique qui répondrait à la problématique
  • Faire de la veille technologique et bibliographique pour détecter les données existantes et pertinentes pour le projet 
  • Expérimenter, prototyper et restituer les résultats

Comment devenir Data Scientist ? 

Pour briguer une place de Data Scientist, il faut cocher certains pré-requis.

Le Data Scientist est confronté à des flux massifs de données, il doit donc aimer les chiffres et les masses d’informations.  Il doit également être à l’aise avec les outils d’analyse, la programmation et avoir de bonnes capacités analytiques. 

Sur le plan personnel, il doit être passionné et faire preuve de curiosité intellectuelle, car il s’agit d’un travail de constante recherches et de veilles. Il doit savoir travailler en autonomie tout en ayant un grand sens de la communication. 

Et toi, Etienne, quelles sont concrètement tes missions chez Retail Shake ?

“J’ai fait des études d’ingénieur en informatique, spécialisé dans la data science. Au cours de ce cursus, j’ai développé une affection particulière pour la vision par ordinateur. Dans le cadre de ma thèse de doctorat, je mène un projet en rapport avec cette thématique chez Retail Shake. Les résultats que nous obtiendrons de cette démarche seront appliqués aux millions de produits scrappés quotidiennement par l’application Retail Shake et rendra encore plus intuitif et simple la veille concurrentielle pour nos clients. ”  

“ Et concrètement, mes journées de travail sont souvent dédiées à de la veille technologique, avec un travail bibliographique permettant d’établir l’état de l’art dans le domaine d’étude. Je réalise des travaux techniques d’expérimentation et de prototypages autour de l’entraînement d’algorithmes d’intelligence artificielle. Sinon, je travaille sur des projets parallèles liés à ma formation de data scientist en fonction des besoins de l’équipe. Par exemple, je travaille actuellement sur un projet d’amélioration du moteur de recherche de notre application.”

Interview – Qu’est-ce que le scraping

 Aujourd’hui c’est la journée mondiale des développeurs. Nous sommes donc allés à la rencontre d’un de nos collaborateurs tech, Mousse Sambou. Mousse, Data analyst chez Retail Shake a accepté de nous parler de son travail passionnant et de répondre à nos questions sur le scraping et son importance pour notre activité.

Mousse Sambou, interview Scraping
Mousse Sambou, Data Analyst chez Retail Shake

« Bonjour ! Peux-tu te présenter et nous raconter ce que tu fais au sein de l’entreprise Retail Shake ? »

Bonjour !  Je m’appelle Mousse Sambou et je suis Data Analyst chez Retail Shake où je suis chargé du scraping web et du monitoring de la data. 

« Tu es chargé du scraping web entre autres. Peux-tu nous en dire un peu plus sur cette mission ? Qu’est-ce que le scraping de données par exemple ? »

“Scraping” est un mot anglais qui signifie littéralement “gratter” en français. Et, quand on parle de scraping dans notre domaine, c’est l’action d’automatiser l’extraction des données d’un site web. 

« Et comment marche cette automatisation de l’extraction des données ? »

On écrit des programmes (scripts) informatiques qui parcourent les informations d’un site( aussi appelées le code html) et récupèrent les données qui nous intéressent. Une fois que les scripts ont capté l’information dans le code html, ils le présentent sous une forme qui facilite la lecture et l’analyse. 

« Quel est l’intérêt d’écrire des programmes qui vont récupérer la donnée sur des sites ? Que fais-tu de la donnée une fois qu’elle a été scrappée ?  »

Cette donnée scrappée sert à alimenter notre outil de veille concurrentielle. On crée progressivement une puissante base de données qui nous permet de mettre à la disposition de nos clients, des outils de veille stratégique. 

« Quel est l’intérêt pour une entreprise de disposer de la donnée que tes robots ont récupérée sur un site concurrent ? »  

L’outil permet aux clients d’effectuer leur veille tarifaire, de géolocaliser les stocks et propose un suivi des points de vente des concurrents. Les entreprises, grâce à ces données concurrentielles centralisées et plus accessibles, peuvent prendre des décisions stratégiques. 

« Nous scrapons également des Marketplaces comme Amazon, Cdiscount, Leroy Merlin. Est-ce qu’aujourd’hui, nos robots différencient les produits proposés par le vendeur lui-même de ceux proposés par les vendeurs tiers ? »  

Oui, nous savons faire cette distinction et nous l’avons d’ailleurs déjà fait pour certains de nos clients. Actuellement, nous travaillons pour l’intégrer à notre application et la rendre accessible à tous nos clients.

« Durant toute cette interview, on a parlé de collecter les données des entreprises. On peut avoir tendance à se demander si tout ça est légal. Peux-tu donc nous dire si le scraping est bien légal ?»

« Interdire le scraping, c’est comme interdire Google »

– Mousse Sambou

Oui c’est légal et c’est même bien vu par les pouvoirs publics car cela facilite la concurrence. C’est même le principe de base des moteurs de recherche comme Google et autres qui récupèrent les informations des sites pour créer une base de données de recherche. Interdire le scraping, c’est comme interdire Google.

Deep learning : reconnaissance d’un pack produit

Voici une courte vidéo du projet de deep learning que nous avons mené avec PicWicToys. Cette application est dédiée aux équipes en magasin. Elle leur permet de visualiser instantanément leur positionnement concurrentiel sur un produit donné.

Il est inutile de manipuler la boîte pour scanner le code-barre. L’intelligence artificielle par apprentissage profond (deep learning) reconnaît le packaging, qui reste sur l’étagère.

Le conseiller peut ainsi comparer son prix avec les magasins voisins, ainsi que son stock et son e-merchandising.

Prototype de notre app « Recognize & Optimize » [VIDEO]

Retrouvez notre prototype « Recognize & Optimize » dans cette vidéo. Cette application permet à chaque conseiller en magasin d’être acteur de sa veille concurrentielle. Un simple scan du produit permet de se comparer en temps réel : prix, promotion, stock et merchandising. En d’autres mots, c’est du benchmark de marketing-mix à la portée de tous.