View job here

Machine Learning Intern – Legal Domain AI

 

Prêt(e) à rejoindre la révolution Legal Tech ?

Vision: Editeur de logiciels SaaS de premier plan, DiliTrust est une entreprise globale spécialisée dans les solutions juridiques et de gouvernance. Notre ambition est d’accompagner nos clients dans la digitalisation rapide de leurs départements juridiques. Avec une croissance annuel de plus de 40 % depuis 2020, nous visons à devenir l’un des leaders mondiaux de la Legal Tech, avec une valorisation dépassant 1 milliard de dollars d’ici à 2027.

Impact : De la génération de rapports pour les Assemblées Générales à la gestion du cycle de vie des contrats assistée par l'IA, nos équipes réparties dans 8 bureaux à travers le monde (France, les États-Unis, le Mexique, la région MEA, l'Allemagne, l'Espagne, l'Italie et le Canada) sont le moteur de notre succès mondial. Aujourd’hui, nous accompagnons +2 400 clients dans 64 pays, dont 80 % sont des d’entreprises cotées sur les principaux marchés européens, américains et du Moyen-Orient.

Reconnaissance: DiliTrust est un pionnier de l’innovation LegalTech, étant la première entreprise du secteur à avoir intégré des fonctionnalités IA dès 2022. Nous sommes également reconnus pour offrir un environnement de travail dynamique et entrepreneurial à nos équipes, certifié chaque année depuis 2019 par les labels "Happy at Work" et "Tech at Work".

Contexte et rôle : 

Améliorer la performance et l’impact des fonctionnalités IA de la suite produit Dilitrust en optimisant à la fois notre LLM interne et les workflows qui l’exploitent. 

Tu travailleras sur le choix de l’architecture du modèle, son fine-tuning avec des jeux de données juridiques de haute qualité, ainsi que sur l’optimisation de bout en bout des pipelines IA qui alimentent nos fonctionnalités juridiques : 
extraction de documents, résumé de contrats, contrôles de conformité, recherche de connaissances, raisonnement automatisé, etc. 

En combinant des innovations d’architecture de pointe (ex. : Mixture of Experts, spécialisation modulaire) avec un design de workflow soigné, tu aideras à garantir des fonctionnalités IA plus rapides, plus précises et plus explicables pour les équipes juridiques du monde entier. 

Quelques défis : 

  • Évaluation et sélection de modèles : comparer des LLM open-source (LLaMA, Gemma, Qwen, GPT-OSS…) pour des tâches d’extraction et de raisonnement juridiques. 

  • Fine-tuning spécialisé : créer et affiner des jeux de données juridiques (documents, précédents, annotations, augmentation synthétique) pour l’entraînement supervisé (SFT) et basé RL (GRPO/DPO). 

  • Optimisation des workflows : analyser les pipelines IA actuels, identifier goulots d’étranglement, redondances et lacunes de précision. 

  • Qualité et équilibre des données : auditer les datasets internes pour vérifier la couverture, l’exactitude des annotations, l’équilibre entre langues/types, la normalisation des entités et formats. 

  • Design de prompts et d’interactions : améliorer les stratégies de prompting (prompt tuning, optimisation, méthodes basées gradient) adaptées à l’architecture choisie. 

  • Pipelines d’entraînement en deux étapes : conserver les capacités générales en étape 1 (tâches simples), puis spécialiser en étape 2 (extraction complexe, analyse de conformité, raisonnement). 

Exigences :

  • Actuellement inscrit dans une école d’ingénieur ou un programme lié à l’informatique

  • Préparation d’un Master 2 (ou diplôme équivalent de fin d’études)

  • Disponible pour un stage à temps plein de 6 mois

  • Fort intérêt pour l’ingénierie logicielle, le développement web ou les systèmes distribués

  • Connaissances de base dans au moins un langage de programmation (ex. : JavaScript/TypeScript, Python, Java, etc.)

  • Envie d’apprendre, curiosité et volonté de travailler dans une équipe collaborative

  • Bonnes compétences en communication et capacité à poser des questions, partager des idées et recevoir des retours