Data scientist et développeur Solr
Description du projet Savoirs ([Url visible pour les membres Pro]) est une plateforme numérique qui propose à ses utilisateurs de naviguer dans une collection de textes en histoire et anthropologie des sciences et des savoirs. Construits autour de trois outils d'indexation principaux – une chronologie, un thésaurus conceptuel et une localisation géographique –, les algorithmes de recommandation actuels de la plateforme visent à permettre aux lecteurs d'affiner pas à pas les paramètres de leurs requêtes. Plus d’infos sur [Url visible pour les membres Pro] L’équipe de Savoirs est composée d'une petite dizaine de personnes issues du monde universitaire : chercheur·se·s, ingénieur·e·s, développeur·se·s. Vous serez en lien direct avec deux membres de l’équipe : une ingénieure de recherche en humanités numériques de l’École des hautes études en sciences sociales et un chercheur postdoctorant en humanités numériques de l’École polytechnique fédérale de Lausanne. Vous travaillerez en lien avec un autre prestataire Rails responsable de l’intégration du moteur Solr à la plateforme actuelle. Nous aimerions développer des métriques nouvelles et innovantes pour vectoriser la collection d'essais de Savoirs dans un espace temporel, géographique et conceptuel afin de repenser intégralement les algorithmes de recommandations. En tirant parti des métadonnées des textes encodées en XML-TEI par rapport à des référentiels ouverts – IdRef, Geonames, Periodo et un thésaurus conceptuel dédié ([Url visible pour les membres Pro]) –, nous aimerions concevoir une série de trois algorithmes permettant de multiples stratégies de recommandation par dates, lieux et concepts. Mission Développer une série d’algorithmes de recommandation de lecture selon trois paramètres : chronologique, géographique et conceptuel. Les algorithmes seront composés : D’un module asynchrone de calcul de scores pour estimer la proximité pair à pair des articles de la base de données (penser à faciliter le recalcul des scores quand la bdd est mise à jour avec de nouveaux articles) D’un module synchrone de calcul des suggestions dans un moteur Solr à partir des scores et des paramètres entrés par l’utilisateur D’un module de génération de visualisation des suggestions Livrables : tout le code source et tous les assets produits pour les besoins du cahier des charges qui sera établi en amont avec le prestataire ; à déposer sur le Gitlab du projet avec toute la documentation nécessaire au suivi et la reprise du projet par la suite. Environnement de travail : principalement en distanciel avec possibilité de réunions en présentiel à Paris. Profil recherché Développeur Solr Data scientist (Python) Data visualization N.B. : l’intégration Rails à l’appli sera réalisée par autre prestataire Années d’expérience : 5 ans minimum, sur des projets de type recommandation (Lucene, elasticsearch, Solr…) et sur la visualisation de ces recommandations Soft skills : collaboration avec une équipe réduite de bénévoles, collaboration avec un autre prestataire pour l’intégration de Solr à l’application, intérêt pour les sciences humaines et sociales et les humanités numériques