Dans une initiative visant à réduire le scraping par les robots d’IA, Wikipedia a publié un ensemble de données spécialement optimisé pour l’apprentissage automatique. Ce partenariat avec Kaggle, une plateforme de science des données appartenant à Google, marque une étape importante dans l’accessibilité des données pour la communauté de l’IA.
Une Collaboration Stratégique
Wikipedia, à travers la Wikimedia Foundation, a annoncé un partenariat avec Kaggle pour publier un ensemble de données bêta contenant du contenu structuré de Wikipedia en anglais et en français. Cet ensemble est conçu pour faciliter les workflows d’apprentissage automatique, offrant aux développeurs un accès simplifié à des données prêtes à l’emploi pour la modélisation, l’ajustement fin, l’analyse et plus encore.
Contenu et Avantages
Le dataset inclut des résumés de recherche, des descriptions courtes, des liens d’images, des données d’infobox et des sections d’articles, excluant les références et les éléments non écrits comme les fichiers audio. Sous licence ouverte, ces données représentent une alternative attrayante au scraping de texte brut, une pratique qui sollicite lourdement les serveurs de Wikipedia.
Impact sur la Communauté IA
Cette initiative vise particulièrement à soulager la pression exercée par les robots d’IA sur les serveurs de Wikipedia, tout en rendant les données plus accessibles aux petites entreprises et aux scientifiques des données indépendants. Kaggle, en tant qu’hôte de ces données, joue un rôle clé dans leur disponibilité et leur utilité pour la communauté de l’apprentissage automatique.