L’environnement
Le langage R est un langage très largement utilisé dans les domaines de la statistique et de l’analyse de données. Le langage possède un écosystème riche de plusieurs milliers de librairies pour préparer des données, les analyser et communiquer les résultats.
Objectifs pédagogiques
À l’issue de la formation, les stagiaires seront capables de :
- Créer et paramétrer leur environnement de travail R
- Manipuler des données
- Traiter statistiquement des données
- Visualiser des données avec ggplot2
Public concerné
Techniciens, ingénieurs, développeurs, scientifiques, enseignants ou tout public souhaitant découvrir le langage R.
Prérequis
Connaissances du langage R ou avoir suivi la formation « R débutant ». Un questionnaire de pré-formation est proposé pour valider l’adéquation entre le besoin et la formation.
Programme de la formation
Introduction
- Installer R et RStudio
- Environnement de développement et librairies
- RStudio et son écosystème
- Science des données et enjeux
Importation et manipulation de données
- Charger des données (texte, csv, Excel, SQL, web…)
- Préparer les données
- Extraire des données
- Filtrer des données
- Joindre des données
- Exporter et sauvegarder un jeu de données
Analyses statistiques simples
- Créer un résumé statistique
- Analyses descriptives
- Réaliser des tests d’hypothèses
Analyses de données multivariées
- Régression linéaire
- Régression multiple
- Analyses factorielles
- Classifications
Analyse de données textuelles
- Importer des données textuelles
- Manipuler des données textuelles
- Concepts : tokenization, lemmatisation, stopwords …
Visualisation des données
- Principes et enjeux de la dataviz
- Les bonnes pratiques
- Les différents types de graphique
- Découvrir la librairie ggplot2
- Réaliser des graphiques avec ggplot2
- La cartographie
- Réaliser des graphiques interactifs
- Communiquer ses réalisations graphiques