Retail Shake Academy
Qualité data
L’obtention et la gestion de la data est un atout essentiel dans le processus décisionnel d’une stratégie d’entreprise. De la fiabilité de la date dépend l’efficacité des décisions. Chez Retail Shake, nous accordons une importance toute particulière à l’excellence de la Data. Le protocole de vérification de celle-ci est très exigeant avant l’envoi à nos clients.
5 piliers définissent une data de qualité.
- L’exactitude des renseignements
- L’exhaustivité des informations
- L’intégrité de la data
- La fraîcheur des éléments
- La cohérence des données
L’exactitude de la data
Il arrive fréquemment que les données sélectionnées par le logiciel d’extraction ne soient pas conformes avec la réalité du terrain. Même lorsqu’elles sont très précises, des informations peuvent perdre en pertinence en raison de la méthode de calcul choisie par la solution. Un service de mauvaise qualité aura également tendance à inclure automatiquement le trafic enregistré dans son intégralité, sans effectuer au préalable de tri entre les personnes physiques et les robots, par exemple. Le résultat est une donnée certes complète, mais qui ne correspond pas à la réalité du terrain.
Pour éviter cela, il est recommandé de passer par un Saas Software as a service, certifiée et labellisée. Retail Shake s’appuie sur un mécanisme de validation de la donnée afin de délivrer une data fiable et complète à ses clients.
Un autre élément indispensable pour assurer la qualité irréprochable de vos données est l’exhaustivité.
L’exhaustivité de la data
Une grande partie des erreurs décisionnelles sont liées à des données incomplètes, voire absentes du logiciel. L’absence de certaines données peut notamment être expliquée par le choix des filtres de recherche (que l’on appelle selecteur), qui doivent régulièrement être mis à jour, ou bien par un serveur de collecte de données indisponible. Afin de nous en prémunir, nous programmons à l’avance des tests de validation des filtres. Un audit périodique des pages les plus importantes permet, par ailleurs, de s’assurer que la recherche de données est bien optimisée. Le data mining devrait ainsi être aussi complet que possible.
L’intégrité de la data
Le data engineering ne doit surtout pas être négligé pour obtenir des données valides et utilisables. Une erreur de formatage lors du scraping peut vite rendre les informations inexploitables par vos analystes. Un mauvais marquage est également responsable de nombreux problèmes de lisibilité.
Pour éviter ce problème, les analystes doivent avoir la liberté de pouvoir modifier par eux-mêmes le formatage des données. Ils peuvent ainsi les modifier à leur guise et les exploiter pleinement. Il est également recommandé de faire régulièrement un test d’affichage des données sur l’interface pour vérifier qu’elles sont encore compatibles.
La fraîcheur de la data
La réactivité est essentielle pour le pôle stratégique d’une entreprise. Prendre les décisions au bon moment implique de posséder les données les plus récentes. Un problème technique peut interrompre la récupération en temps réel des données. Si aucune solution n’est prévue, la panne peut se prolonger. Pour pallier cela, l’entreprise doit préparer à l’avance un process à appliquer immédiatement lors d’une panne. Il est également souhaitable de transmettre votre data en temps réel via un tableau de monitoring.
La cohérence de la data
Le croisement de plusieurs sources peut créer des incohérences entre les données. En utilisant une solution unique et complète pour l’ensemble des services de l’entreprise, les données deviennent, d’une part, bien plus cohérentes entre elles, mais elles sont, par ailleurs, plus faciles à consulter par les différents acteurs. De la même manière, établir une politique de gestion des données permet d’uniformiser leur utilisation et de supprimer rapidement les données qui sont incohérentes.
En conclusion
Au quotidien, chez Retail Shake, l’une de mes missions est de m’assurer de la qualité de la donnée que l’on scrappe. Pour cela, je dispose de différents outils me permettant notamment de suivre l’évolution de l’ensemble de nos spider, via des dashboard de monitoring (scrapydweb, grafana), ou encore par un système d’agrégation des logs (graylog). Grâce à ces outils, en cas d’incident ou de non-conformité, je suis capable de remonter à la source du problème et d’en informer le reste de l’équipe technique pour qu’ils puissent apporter les correctifs nécessaires.
By Clémentine