Project list

E-book interactif & applications web

Projet

Project

>
>

Annexes

Général
140
E-book interactif & applications web
Interactive e-book & web applications
Stéphane Guerrier & Francesco Luigi Gervasio
Ioannis Galdadas, Luca Insolia, Lionel Voirol, Yuming Zhang
stephane.guerrier@unige.ch
Modélisation et analyse de données
14H120
Catégorisation
Master
50 - 100
Responsabiliser
Développer des compétences
Université de Genève
Sciences
2022
Oui
Description du projet
Ce cours se concentre sur l'application concrète des méthodes statistiques dans un contexte médical, en utilisant une approche interactive avec un site web interactif et une application Shiny intégrant GPT-3 pour la génération de code R.

Tels que dispensés actuellement, les programmes de médecine et de sciences pharmaceutiques ne préparent pas suffisamment les étudiant-es à la digitalisation et à la multiplication des données dans le milieu médical. La modélisation, l’analyse de données et l’intelligence artificielle prennent de plus en plus de place dans la future vie professionnelle des étudiant-es. Il devient essentiel qu’ils/elles soient formés à ces méthodes. À la suite de cette prise de conscience, appuyée par une demande spécifique des représentants des étudiant-es (tout en répondant à la stratégie de l'Unige), le cours de modélisation et analyse de données a été introduit dans le master de sciences pharmaceutiques en 2022. Il comprend une partie consacrée à la modélisation de molécules et une partie consacrée à l’analyse de données.

Le défi à relever pour les enseignant-es de ce nouveau cours était de le proposer sous un format attractif pour des étudiant-es manquant de compétences en matière de programmation et d’analyse de données et souvent peu motivé-es par le sujet. De plus, les enseignants ne disposant pas du temps nécessaire pour apprendre aux étudiant-es à maîtriser la programmation des logiciels d’analyse de données tels que R, il leur fallait trouver un format adapté pour le cours. L’approche choisie consiste à analyser différents jeux de données issus d’un contexte médical afin d’illustrer l’utilisation de diverses méthodes statistiques. Les étudiants peuvent notamment utiliser une application développée spécifiquement pour une utilisation dans le cadre de ce cours s’appuyant sur un modèle de deep learning permettant de générer du code R à partir d’instruction en langage naturel. La volonté ainsi assumée est de favoriser la compréhension des méthodes statistiques ainsi que de leurs applications plutôt que de la syntaxe du langage de programmation utilisé.

Le cours débute par une présentation théorique qui permet aux étudiant-es d’approcher les statistiques en abordant les problèmes les plus fréquemment rencontrés dans les analyses de données. L’équipe enseignante insiste surtout sur l’intérêt pratique des analyses statistiques qui permettent d’avancer ou valider les arguments scientifiques. Elle présente également un logiciel d’analyse de donnée open source (R), le but n’étant pas de former les étudiant-es à son utilisation mais de les familiariser avec cet outil.

L’équipe enseignante a créé un site web interactif qui contient le matériel utilisé pendant les cours (diapositives dynamiques en ligne) ainsi que des exercices à choix multiples et des morceaux de code interactifs à compléter afin d'effectuer des analyses statistiques. Les étudiant-es peuvent réaliser ces exercices quand ils le souhaitent. Chaque réponse, bonne ou mauvaise, leur donne accès à une explication personnalisée.

Le but du cours étant de permettre aux étudiant-es d'apprendre autant que possible en « faisant » de l'analyse de données, les enseignant-es ont créé une application basée sur le framework Shiny (hébergée sur shinyapp.io) permettant de modéliser des données du monde réel de manière indépendante. Cette application intègre GPT-3 auquel font appel les étudiant-es pour produire du code R. Ils/elles peuvent ainsi tester autant d’analyses qu’ils le souhaitent, voir le code produit par GPT-3 et intégrer celui-ci progressivement. Les étudiant-es installent tout de même R sur leur machine pour apprendre à l’utiliser mais l’attention n’est pas focalisée sur la programmation. L’application permet également aux étudiant-es de demander la génération de graphiques. Lorsque les étudiant-es ont effectué leur analyse, ils/elles peuvent télécharger un rapport dans lequel figure le code utilisé.

Le format de l’examen, discuté en avance avec les représentants étudiant-ess est particulièrement apprécié des étudiants. En effet, l’évaluation prend place en classe tout au cours de l’année et non durant un examen final durant la session d’examens. Elle est proposée sous un format « open web/open book ». Les étudiant-es ont donc accès à toutes les ressources qu’ils/elles jugent nécessaires afin de répondre à l’exercice proposé. L’équipe enseignante leur fournit une base de données et leur présente le contexte de l’étude. Les étudiant-es doivent analyser les données seuls ou en groupe et répondre ensuite individuellement à des questions de compréhension. Ces questions, loin des considérations techniques, visent à vérifier que les étudiant-es ont compris les analyses qu’ils/elles ont faites et qu’ils/elles seraient capables de formuler des conseils avisés suite à ces analyses, à valider ou invalider des arguments scientifiques.

Le format du cours est très apprécié par les étudiant-es. L’équipe enseignante relève plusieurs centaines de requêtes sur GPT 3 par cours. Plus de la moitié du cours se déroule dans les salles informatiques. Pendant ces séances, les étudiant-es travaillent, réfléchissent ensemble et n’appellent l’assistant que lorsqu’ils/elles sont réellement bloqué-es. Les situations problématiques auxquelles les confronte l’équipe enseignante ressemblent aux situations qu’ils/eIles vont rencontrer dans leur vie professionnelle. Cela représente donc un exercice essentiel de réflexion et d’autonomisation.

L’équipe enseignante souligne que la partie du cours la plus chronophage a été de concevoir et d’implémenter les exercices sous forme de QCM ainsi que de développer les différentes ressources sur lesquelles s’appuie le cours (site web interactif, application Shiny intégrant GPT-3, package R implémentant diverses fonctions et comprenant les différents jeux de donnés documentés). Enfin, le fait que les réponses soient personnalisées afin d’expliquer en quoi celles-ci sont correctes ou incorrectes a demandé un temps considérable de rédaction lors de leur création. L’avantage d’un tel matériel c’est qu’au-delà de rendre les étudiant-es plus autonomes, il est également réutilisable dans le temps. Il est aussi hautement transférable et donc utilisable très facilement dans d’autres cours.

« […] Les slides sont bien construites, et les informations présentées sont bien expliquées. Les séances d'exercices sont appropriées et le temps mis à disposition pour résoudre les exercices est adéquat. L'utilisation de Piazza est très utile, c'est un bon outil pour pouvoir poser des questions qui concernent la partie R Studio du cours. Le format des examens (QCM sur un dataset donné à l'avance pour la première partie et rapport à rendre pour la deuxième partie) est très bien, et je vous en remercie ! »

« Faire en 1er une heure de théorie et ensuite aller en Teachlab permet de mieux comprendre ce qu'on va faire en Teachlab le rapport à faire comme examen de la 2ème partie est bien car il permet de bien expliquer ce que l'on a compris l'examen sur la 1ère partie est également bien structuré, le fait de donner les données à l'avance permet de bien pouvoir se préparer, et le fait de faire des questions "écrites" nous oblige à comprendre ce que l'on faisait pendant les exercices (ce qui est très bien) »

« Très bien géré. Le forum piazza est disponible pour poser les questions et l'on y accède depuis chez nous donc cela permet de poser des questions aux assistants en live puis en réfléchissant entre les séances, les nouvelles questions peuvent être posées en ligne. »

« Les profs sont disponibles, la présence de piazza était cool. Ça rajoutait un bon côté interactif au cours. Les profs sont super sympas et à l'écoute, ce qui était adorable. »

« Pour la première partie sur R, la plateforme pour les exercices est très bien réalisée et aide à l'apprentissage. Les assistants sont top aussi, nous aident bien et à l'écoute. Pour la 2eme partie sur modélisation, les exercices au teach lab étaient intéressants. Les documents à disposition pour faire les exercices de modélisation sont très bien expliqués. »

« Ça nous permet d'être plus critique vis à vis des études statistiques faites. Ça permet de vraiment appliquer les méthodes vues en cours, ce qui est très positif selon moi »

« Le cours est intéressant, je trouve pertinent de nous montrer comment la modélisation de protéines se déroule, car c'est un aspect majeur des sciences pharmaceutiques et de la recherche des médicaments. Le fait de traduire les slides en français est toujours très apprécié. Le Prof. Gervasio est très agréable avec les étudiants. »

This course focuses on the practical application of statistical methods in a medical context, using an interactive approach with an interactive website and a Shiny application integrating GPT-3 for R-code generation.

Interactive e-books & web applications Modeling, data analysis and artificial intelligence are becoming more and more important in the future professional life of students. It is essential that they be trained in these methods. As a result of this awareness, supported by a specific request from student representatives (while responding to the strategy of the Unige), the course of modeling and data analysis has been introduced in the master of pharmaceutical sciences in 2022. It includes a part dedicated to the modeling of molecules and a part dedicated to data analysis.

The challenge for the teachers of this new course was to propose an attractive format for students lacking programming and data analysis skills and often unmotivated by the subject. Moreover, since the teachers did not have the time to teach students how to program data analysis software such as R, they had to find a suitable format for the course. The chosen approach is to analyze different data sets from a medical context in order to illustrate the use of various statistical methods. Students can use an application developed specifically for this course based on a deep learning model that generates R code from natural language instructions. The aim is to promote the understanding of statistical methods and their applications rather than the syntax of the programming language used.

The course begins with a theoretical presentation that allows students to approach statistics by tackling the problems most frequently encountered in data analysis. The teaching team insists on the practical interest of statistical analysis in order to advance or validate scientific arguments. She also presents an open source data analysis software (R), the goal being not to train students in its use but to familiarize them with this tool.

The teaching team has created an interactive website that contains the material used during the course (dynamic online slides) as well as multiple-choice exercises and interactive pieces of code to complete in order to perform statistical analyses. Students can complete these exercises whenever they wish. Each answer, right or wrong, gives them access to a personalized explanation.

Since the goal of the course is to allow students to learn as much as possible by "doing" data analysis, the teachers have created an application based on the Shiny framework (hosted on shinyapp.io) that allows students to model real-world data independently. This application integrates GPT-3, which students use to produce R code. They can test as many analyses as they wish, see the code produced by GPT-3 and integrate it progressively. The students still install R on their machines to learn how to use it, but the focus is not on programming. The application also allows students to request the generation of graphs. When students have completed their analysis, they can download a report showing the code used.

The format of the exam, discussed in advance with the student representatives, is particularly appreciated by the students. Indeed, the evaluation takes place in class during the year and not during a final exam during the exam session. It is offered in an "open web/open book" format. Students have access to all the resources they deem necessary to complete the exercise. The teaching team provides them with a database and presents the context of the study. Students are asked to analyze the data alone or in groups and then individually answer comprehension questions. These questions, far from technical considerations, aim to verify that the students have understood the analyses they have made and that they would be able to formulate sound advice following these analyses, to validate or invalidate scientific arguments.

The course format is very popular with students. The teaching team notes several hundred requests on GPT 3 per course. More than half of the course takes place in the computer rooms. During these sessions, the students work and think together and only call the assistant when they are really stuck. The problematic situations that the teaching staff confronts them with are similar to the situations they will encounter in their professional lives. This represents an essential exercise in reflection and empowerment.

The teaching team underlines that the most time-consuming part of the course was to design and implement the MCQ exercises as well as to develop the different resources on which the course is based (interactive website, Shiny application integrating GPT-3, R package implementing various functions and including the different documented data sets). Finally, the fact that the answers are personalized in order to explain why they are correct or incorrect required a considerable amount of writing time during their creation. The advantage of such material is that beyond making students more autonomous, it is also reusable over time. It is also highly transferable and therefore easily used in other courses.

"[...] The slides are well constructed, and the information presented is well explained. The workouts are appropriate and the time provided to solve the exercises is adequate. The use of Piazza is very useful, it is a good tool to be able to ask questions that relate to the R Studio part of the course. The format of the exams (MCQs on a dataset given in advance for the first part and report due for the second part) is very good, and I thank you for that!"

"Doing 1st an hour of theory and then going to Teachlab allows us to better understand what we are going to do in Teachlab the report to be done as an exam for the 2nd part is good because it allows us to explain well what we understood the exam on the 1st part is also well structured, the fact of giving the data in advance allows us to be able to prepare well, and the fact of doing "written" questions obliges us to understand what we were doing during the exercises (which is very good)"

"Very well run. The piazza forum is available to ask questions and it is accessed from home so it allows you to ask questions of the assistants live and then by reflecting between sessions, new questions can be asked online."

"The teachers are available, the piazza presence was cool. It added a nice interactive feel to the class. The profs are super nice and responsive, which was lovely."

"For the first part on R, the platform for the exercises is very well done and helps with learning. The assistants are great too, they help us well and listen to us. For the second part on modeling, the exercises in the teach lab were interesting. The documents available to do the modeling exercises are very well explained."

"It allows us to be more critical of the statistical studies done. It allows us to really apply the methods seen in class, which I think is very positive.”

"The course is interesting, I find it relevant to show us how protein modeling is done, as it is a major aspect of pharmaceutical sciences and drug research. The fact that the slides are translated into French is always very appreciated. Prof. Gervasio is very pleasant with the students."

Illustrations/annexes
Nouvelles fonctionnalitées
01/03/2023
Non
Institution Faculté Couleur (Hexadecimal)
Université de Genève Transversal #CF0063
Université de Genève Théologie #4B0B71
Université de Genève SDS #F1AB00
Université de Genève Sciences #007E64
Université de Genève Médecine #96004B
Université de Genève Lettres #0067C5
Université de Genève GSEM #465F7F
Université de Genève FTI #FF5C00
Université de Genève FPSE #00b1ae
Université de Genève Droit #F42941
Situation problématique Page cible Situation Main color Dark color Illustration
Préparer Préparer Prepare #9966ff #613fa4 Préparer.svg
Rendre actifs Rendre actif Engage #33cc99 #269973 RendreActif.svg
Responsabiliser Responsabiliser Make responsible #0099ff #297eb6 Responsabiliser.svg
Faire créer Faire creer Create #ffa248 #bc7c3c FaireCréer.svg
Nom de l'innovation Page Cible Innovation name
Impliquer dans l'enseignement Impliquer dans l'enseignement Involve students in the teaching process
Exposer des cas pratiques Exposer des cas pratiques Examine case studies
Impliquer dans la Recherche Impliquer dans la Recherche Involve students in the research process
Démontrer Démontrer Demonstrate
Donner la parole Donner la parole Hear from students
Faire conceptualiser un projet Faire conceptualiser un projet Have students conceptualize a project
Faire gérer un projet Faire gérer un projet Have students manage a project
Faire réagir Faire réagir Generate reactions
Faire réaliser une production originale Faire réaliser une production originale Have students produce an original production
Développer des compétences Développer des compétences Develop skills
Simuler une situation Simuler une situation Simulate a situation
Questionner Questionner Ask questions
Faire collaborer Faire collaborer Encourage cooperation
Faire voter Faire voter To Vote
Logo Nom court Nom de l'institution
UNINE Université de Neuchâtel
UNIGE Université de Genève