Automatiser la collecte de données présentes sur un site web

Automatisation de la collecte des données issues de la messagerie instantanée Chatra.io, avec traitement et sauvegarde optimisés dans une base de données MongoDB

Tiavina Michael RALAINIRINA

Description du projet

Chatra.io est une solution moderne de chat et de messagerie instantanée. Dans le cadre de leur projet d'intelligence artificielle, xBrain utilise Chatra pour gérer les communications, mais, étant un service tiers, ils ont besoin de migrer les données vers leur propre base de données MongoDB. Pour ce faire, ils ont opté pour une solution de web scraping.

Le web scraping regroupe des techniques permettant d'automatiser l'extraction de données sur un site web public, évitant ainsi un fastidieux copier-coller manuel. Il peut être réalisé avec plusieurs langages de programmation, tels que Python, Node.js ou Ruby. Comme le projet est basé sur Node.js, xBrain a choisi Puppeteer, une bibliothèque Node.js réputée pour sa simplicité, son statut open source, et sa capacité à gérer des applications monopages (SPA). Cependant, la mise en place d'un web scraping efficace nécessite une bonne maîtrise de la ligne de commande, de JavaScript, ainsi que de la structure HTML DOM.

Capture d'écran

Automatiser la collecte de données présentes sur un site web
Description de la société

XBrain est une start-up française fondé en 2012 établie dans la Silicon Valley connu pour être l'éditeur de la technologie de services conversationnels satisfaction.AI et leader dans le domaine du traitement du langage naturel et de la reconnaissance vocale

Société

xBrain

Platforms

Web

iconiconiconiconiconiconicon

S'abonner à ma newsletter

Abonnez-vous à ma newsletter pour pouvoir suivre et récevoir des offres spéciales et les articles / tutos que je publie occasionnellement sur mon blog

* Vous pouvez se désabonner à tout moment en cliquant sur le lien de désabonnement contenu dans chacun de nos mails.