Topic outline

  • General

    Ce cours présente la gestion de données du Web.

    Modalités d'évaluation : Le cours est évalué uniquement sur les TP. Chaque TP est noté sur 20. Votre note pour le cours est la moyenne des 6 meilleures notes que vous avez obtenues sur les 8 TP. Il n'y a pas de rattrapage prévu.

    Plagiat : Vous pouvez discuter entre vous et consulter les sources en ligne que vous souhaitez, mais l'évaluation du cours est individuelle, donc le code que vous rendez doit impérativement être entièrement votre propre travail et ne pas être adapté du code de quelqu'un d'autre ou d'une solution en ligne ; et vous ne devez pas le partager votre code avec d'autres personnes. (La seule exception est si vous réutilisez du code généraliste, par exemple une bibliothèque, auquel cas vous devez indiquer clairement votre source et vous assurez que cette réutilisation est légale par rapport à la licence de la bibliothèque.) Attention, si votre rendu inclut du code d'une solution en ligne, ou s'il y a recoupement avec un autre rendu, il s'agit de plagiat. Le rendu reçoit alors la note de 0/20 et fait l'objet d'un signalement au responsable du programme. Cette sanction s'applique même si quelqu'un d'autre a recopié votre code : pour cette raison, vous ne devez jamais partager le code que vous écrivez avec d'autres personnes, et en particulier ne pas le mettre en ligne publiquement (e.g., sur Gitlab ou Github) avant que le TP ait été évalué.

    Échéances de rendu : Chaque TP doit être rendu sur Moodle. Pour chaque TP, l'échéance de rendu est précisée et tombe 4 jours plus tard. Par exemple, pour un TP donné le 20, l'échéance de rendu est le 24 au soir ; la deadline précise est le 25 à 5:00 du matin. La date et heure de rendu qui fait foi est celle donnée par Moodle. Les rendus tardifs sont pénalisés de 5 points par jour de retard.


    • Sécurité & Privacy

      Dans cette partie du cours, nous allons nous occuper de la sécurité des données et de la privacy. Cela inclut la protection des données contre des pirates, contre des grandes entreprises (Facebook etc.), et contre le gouvernement.

      • Technologies client et serveur

      • Collecte de données du Web: crawling, scraping, web apis...

        Dans ce cours sont abordés différentes techniques pour collecter des données sur le Web.

        • Représentation des connaissances, Extraction d'instances

          29/05/2019 08:30  Motivation, représentation des connaissances

          29/05/2019 10:15  Reconnaissance des entités nommées, évaluation

        • Disambiguation, Web sémantique

          03/06/2019 08:30 Désambiguation, extraction d'instances, extraction des faits 

          03/06/2019 10:15 Web sémantique

        • Développer pour le Web sémantique

        • Labs