Selon une étude scientifique publiée dans le journal of cultural economy, le web scraping, ou l’extraction automatisée de données en ligne, soulève des problématiques méthodologiques et éthiques importantes pour la recherche sociale et culturelle. L’étude, conduite par Noortje Marres de l’université de Goldsmiths et Esther Weltevrede de l’université d’Amsterdam, explore comment cette technique, initialement développée en dehors du domaine de la recherche sociale, peut être utilisée de manière analytique productive.
Le potentiel et les défis du scraping
Le scraping permet de collecter des données en ligne de manière automatisée, offrant ainsi des opportunités pour de nouvelles formes de collecte, d’analyse et de visualisation des données. Cependant, cette méthode pose plusieurs défis. Premièrement, en raison de son origine extérieure à la recherche sociale, le scraping peut introduire des hypothèses méthodologiques « étrangères », telles qu’une préoccupation pour l’actualité immédiate des données. Deuxièmement, les données extraites par scraping sont souvent déjà formatées et accompagnées d’analyses externes intégrées, ce qui peut biaiser la recherche.
Les auteurs proposent que ces défis peuvent être transformés en avantages analytiques. Par exemple, les formats de données utilisés dans les pratiques sociales en ligne peuvent eux-mêmes servir de sources de données sociales. Le scraping permet ainsi de rendre productives les interactions entre l’objet et le processus de la recherche sociale, facilitant une forme de recherche sociale en temps réel. Cette approche permet d’utiliser les formats et les cycles de vie des données en ligne pour structurer les objets analytiques et les résultats de la recherche.
Comprendre les dispositifs techniques
En examinant le scraping comme une pratique analytique, l’étude souligne l’importance de comprendre les dispositifs techniques qui le rendent possible. Le scraping se distingue des méthodes traditionnelles de collecte de données par sa capacité à agréger des informations de différentes sources en ligne et à les rendre disponibles pour de nouvelles utilisations. Cette technique permet de rassembler des données textuelles, des images, et même des informations de localisation à partir de pages web, ce qui offre une richesse de données sans précédent pour les chercheurs.
Les implications éthiques du scraping
L’étude met également en lumière les implications éthiques du scraping. La collecte automatisée de données en ligne soulève des questions de confidentialité et de consentement, surtout lorsque les données proviennent de plateformes de médias sociaux où les utilisateurs peuvent ne pas être conscients de la manière dont leurs informations sont utilisées. Les auteurs soulignent la nécessité d’établir des lignes directrices éthiques claires pour l’utilisation du scraping dans la recherche sociale afin de protéger la vie privée des individus et d’assurer l’intégrité des données collectées.
Applications pratiques et pédagogiques
En conclusion, Marres et Weltevrede démontrent cette approche à travers un exercice de profilage en ligne des enjeux, en se basant spécifiquement sur Twitter pour profiler la question de « l’austérité ». Elles distinguent deux formes de recherche en temps réel : celles dédiées à la surveillance du contenu en direct (quels termes sont courants ?) et celles préoccupées par l’analyse de la dynamique des enjeux (quels sujets sont en vogue ?). Cette étude met en lumière l’importance de considérer le scraping non seulement comme une technique de collecte de données, mais aussi comme un dispositif analytique capable de reconfigurer les relations entre les sujets, les objets, les méthodes et les dispositifs de la recherche sociale.
Par ailleurs, l’étude examine comment le scraping peut être intégré dans des programmes éducatifs pour former de nouveaux chercheurs aux méthodes numériques. Les auteurs décrivent une session d’apprentissage au Centre pour la Technologie Créative et Sociale de Goldsmiths, où les étudiants ont été initiés au scraping à travers des exercices pratiques utilisant des plateformes comme ScraperWiki. Cette approche pédagogique met en évidence les compétences techniques nécessaires pour utiliser efficacement le scraping et montre comment cette technique peut être enseignée de manière accessible et engageante.
Perspectives d’avenir
Enfin, Marres et Weltevrede discutent des développements futurs du scraping dans la recherche sociale. Elles suggèrent que le scraping pourrait évoluer pour inclure des techniques plus avancées d’extraction et d’analyse de données, telles que l’apprentissage automatique et l’intelligence artificielle. Ces innovations pourraient améliorer la précision et l’efficacité du scraping, ouvrant de nouvelles possibilités pour la recherche en temps réel et l’analyse des tendances sociales.