Le 29 octobre 2024, Tower Research Ventures a eu le plaisir de coorganiser une nouvelle édition de la série de tables rondes sur la recherche en IA avec le collectif GenAI. Parmi les intervenants, on comptait le professeur Vlodymyr Kuleshov, Jack Morris et Avner May qui ont couvert des sujets tels que l’application de modèles de diffusion au langage, l’amélioration des systèmes de génération augmentée de récupération (RAG) en ajoutant du contexte dans les intégrations et l’accélération de l’inférence des LLM.
Le premier exposé du professeur Kuleshov, de Cornell, a mis en lumière les derniers travaux de son équipe sur les modèles de diffusion linguistique[1]. Alors que les modèles de diffusion occupent une place importante dans les applications de données continues (p. ex., MidJourney pour les images), les applications de données discrètes sont aujourd’hui principalement basées sur des modèles autorégressifs. L’équipe du professeur Kuleshov est pionnière dans l’application des modèles de diffusion au langage, en raison de leurs avantages potentiels, notamment (i) une génération plus rapide et plus efficace, (ii) une meilleure contrôlabilité et (iii) une « multimodalité native ». Le professeur Kuleshov a détaillé ses nouvelles techniques de masquage et a partagé les résultats impressionnants de son modèle de langage à diffusion masquée récemment publié[2]. En conclusion, il a discuté des orientations passionnantes pour la recherche future, en particulier pour comprendre comment ces modèles s’adaptent à l’augmentation de la puissance de calcul. Nous attendons avec impatience de nouvelles découvertes dans ce domaine.
Le professeur Kuleshov discute des modèles de diffusion linguistique
Jack Morris, actuellement chercheur à Meta, a présenté ses travaux sur l’intégration contextuelle de documents (CDE). La RAG, une méthode couramment utilisée pour fonder de grands modèles de langage sur des connaissances externes, repose sur des modèles d’intégration pour coder les documents dans un corpus de connaissances. Les modèles traditionnels d’intégration de documents créent des représentations vectorielles de documents de manière indépendante sans tenir compte du contexte d’autres documents similaires ou de l’ensemble du corpus. En introduisant deux éléments clés – la formation contextuelle et l’architecture contextuelle[3] – les travaux de Morris démontrent comment rendre les modèles d’intégration de documents conscients du contexte. Cette technique améliore considérablement la sélection et le rendement des documents dans le cadre de la RAG dans divers domaines. Morris et son équipe ont publié une petite version de leur modèle d’intégration contextuelle de documents, cde-small-v1, sur Huggingface. Nous attendons avec impatience de voir d’autres applications de ces modèles dans des environnements de production en direct.
Jack Morris sur l’intégration contextuelle de documents
Enfin, Avner May, de Together AI, a parlé de l’accélération de l’inférence des LLM avec le cadre Sequoia[4], une méthode qui s’appuie sur un algorithme de programmation dynamique pour créer une structure arborescente optimale (d’où le nom Sequoia) pour la génération spéculative de jetons. Bien que les détails de l’algorithme dépassent le cadre de ce billet[5], les améliorations de vitesse qu’il permet d’obtenir sont remarquables, atteignant jusqu’à 10 fois la vitesse de décodage de Llama2-7B sur un processeur graphique A100. L’équipe travaille activement sur d’autres améliorations du cadre et prévoit de faire part des mises à jour publiquement sous peu.
Si vous êtes un ingénieur ou un fondateur et que vous travaillez sur les modèles de diffusion linguistique, les intégrations contextuelles ou la vitesse d’inférence des LLM, nous serions ravis de discuter avec vous. Veuillez communiquer avec Tower Research Ventures à l’adresse ventures@tower-research.com!
[1] https://www.together.ai/blog/sequoia
[2] Pour référence, voir: https://infini-ai-lab.github.io/Sequoia-Page/
[3] Pour référence, voir https://arxiv.org/abs/2410.02525
[4] Pour référence, voir https://arxiv.org/abs/2406.07524
[5] https://github.com/kuleshov-group/mdlm
Les opinions exprimées dans ce document sont uniquement celles de l’auteur (ou des auteurs), telles qu’elles étaient au moment de leur publication initiale, et ne reflètent pas nécessairement les opinions de Tower Research Ventures LLC ou de ses affiliés. Elles ne sont pas destinées à fournir, et ne doivent pas être considérées comme, des conseils en investissement, et aucune information contenue ici ne constitue une offre d’achat ou de vente de titres, ni ne doit être utilisée comme base pour l’achat ou la vente d’un investissement. Les informations contenues ici n’ont pas été et ne seront pas mises à jour ou révisées pour refléter les informations qui pourraient devenir disponibles ultérieurement, ni pour tenir compte des circonstances existantes ou des changements survenus après la date de préparation. Certaines informations contenues dans le présent document sont basées sur des sources publiées et non publiées. L’information n’a pas été vérifiée de façon indépendante par TRV ou ses représentants, et l’exactitude ou l’exhaustivité de ces renseignements n’est pas garantie. Votre lien vers ou utilisation de tout site Web tiers se fait à vos propres risques. Tower Research Ventures décline toute responsabilité quant aux produits ou services offerts ou aux renseignements contenus sur tout site Web tiers.