Nous assistons depuis plus d’une dizaine d’années à un véritable « déluge de données ». Les avancées technologiques récentes, la numérisation et la diversification des modes de collecte de données (web, réseaux sociaux tels Facebook ou Twitter, téléphones mobiles, vidéo, etc.), permettent aujourd’hui de stocker des quantités massives d’observations dans des « entrepôts » de données parfois gigantesques, de façon distribuée. Ces données sont actualisées de plus en plus souvent en « temps réel ». Dans de nombreux secteurs d’activité, des investissements considérables ont été réalisés (finance, internet, CRM, biologie, médecine individualisée, télécoms, e-commerce, grande distribution, sécurité, industrie high-tech) pour conduire à cette nouvelle ère technologique de l’information. Le phénomène « big data » est aujourd’hui perçu comme une tendance de fond, aux conséquences sociétales et économiques considérables. Le déploiement généralisé de plates-formes Hadoop permettant l’analyse de données massives non structurées, la mise sur le marché de solutions dédiées à ces analyses par les éditeurs de logiciel majeurs, le phénomène Open Data, le développement du « cloud » et le succès de sociétés nouvelles dont l’activité repose précisément sur l’exploitation des flux de données de trafic web, indiquent qu’une mutation est en train de se produire. Cette mutation appelle de nouveaux programmes de formation, interdisciplinaires, intégrant toutes les facettes du métier de « data scientist » et permettant d’affronter les challenges posés par le « big data » : infrastructure informatique, données, algorithmique, statistique.
Objectifs de la formation :
- Mettre en œuvre les techniques récentes de gestion et d’analyse de grandes masses de données, pour exercer le métier de « data scientist »
- Identifier et prendre en compte les différents formats des données, modèles, méthodes d’extraction de descripteurs (features) structurels et sémantiques
- Utiliser et adapter les algorithmes et les techniques d’analyse des données et d’apprentissage statistique
- Prendre en compte les problématiques de volumétrie et mettre en œuvre les techniques de passage à l’échelle