00:00 Alors Yann, est-ce que vous pouvez nous expliquer un peu le projet JEPA,
00:04 pourquoi c'est né, qu'est-ce qui manque peut-être encore à la machine,
00:07 et quelles sont les étapes ?
00:09 Alors JEPA ça veut dire Joint Embedding Collective Architecture,
00:12 en français, architecture prédictive d'enchassement joint, si on veut traduire.
00:18 Et ce que ça veut dire c'est, le problème qu'on essaie de résoudre,
00:22 c'est comment les machines peuvent apprendre à comprendre le monde,
00:26 par observation, un peu la manière des bébés, des enfants, etc.
00:29 en regardant des vidéos.
00:32 Donc une idée qui est utilisée beaucoup dans les systèmes d'IA à l'heure actuelle,
00:36 c'est pour les entraîner à comprendre le texte, et comprendre le texte,
00:39 on corrompt ce texte en supplémentant certains mots, en les pressant par des marqueurs blancs,
00:43 on entraîne un très gros réseau de neurones, un système de deep learning,
00:46 à prédire les mots qui manquent.
00:48 Donc ça c'est ce qu'on appelle le liage génératif,
00:50 parce que le système apprend à régénérer en fait l'entrée.
00:54 Alors une idée naturelle c'est d'appliquer ça à la vidéo.
00:57 On prend une vidéo, on masque un morceau de la vidéo,
01:00 et on montre un morceau de la vidéo au système,
01:02 et on lui demande de prédire le morceau qui manque.
01:05 Et ça, ça ne marche pas.
01:06 On travaille dessus depuis 10 ans, ça n'a jamais marché.
01:09 Ce qui marche, c'est des architectures non génératives,
01:13 donc GEPAS, c'est une architecture non générative,
01:15 qui ne cherche pas à reconstruire ce qui manque dans la vidéo,
01:19 mais qui cherche à construire une représentation abstraite de ce qu'il y a dans la vidéo,
01:23 et faire la prédiction de ce qui se passe dans cette représentation abstraite.
01:26 Donc quand on veut prédire par exemple la trajectoire d'une voiture sur une route,
01:32 parce qu'on construit une voiture autonome,
01:34 et qu'on peut arriver à prédire ce que les autres voitures vont faire,
01:37 on n'a pas besoin d'en savoir beaucoup sur la couleur de la voiture,
01:41 la forme de la voiture, le conducteur, etc.
01:45 Les voitures peuvent faire certaines choses qui sont indépendantes d'un petit peu de tout ça.
01:49 Si on veut prédire la trajectoire d'une planète,
01:51 il suffit de connaître 6 variables, les positions et les vitesses de la planète,
01:55 c'est-à-dire sa taille, sa forme, sa couleur, sa composition, sa densité,
01:58 tout ça n'a aucune importance.
02:00 Donc c'est ça le problème que Jepa essaie de résoudre,
02:03 trouver une représentation abstraite de la réalité,
02:08 qui contient toute l'information qui permet de faire des prédictions équivalentes.
02:11 Et si on a un système qui est capable de faire des prédictions de ce qui va se passer dans le monde,
02:15 peut-être ce qui va se passer comme conséquence de ses actions,
02:18 ces systèmes seront capables de comprendre le monde, avoir un certain sens commun,
02:22 et planifier des séquences d'action pour arriver à un but particulier.
02:26 Donc c'est un peu le programme, ça va nous prendre 5-10 ans, on ne sait pas encore.
02:29 Très bien, et qu'est-ce qu'il faut techniquement pour que ça voie le jour ?
02:32 C'est quoi les challenges à relever ?
02:34 Les challenges à relever, c'est quelle architecture donner précisément
02:37 à ces encodeurs et prédicteurs dans les architectures Jepa ?
02:41 Quelle est la meilleure manière de prendre une vidéo et de la corrompre
02:45 justement pour entraîner des systèmes à faire ça ?
02:47 Puis en plus de ça, des problèmes techniques,
02:51 comment entraîner sur des systèmes de grande taille avec beaucoup de données,
02:56 de vidéos, etc. ? Essayer de reproduire un petit peu le type de vidéos
03:00 qu'observent les enfants par exemple dans leur jeunesse, des choses comme ça.
03:02 Donc beaucoup de problèmes à résoudre, certains très techniques,
03:08 on n'y est pas encore.
03:11 Très bien, et juste pour terminer l'analogie avec l'homme,
03:13 est-ce qu'il faudrait un jour que la machine ressente,
03:15 comme souvent on compare le bébé qui est tombé,
03:19 ressente des douleurs, des manques pour qu'elle devienne peut-être
03:23 intelligente à avoir une conscience ou très loin ?
03:26 La conscience, c'est une question que je ne sais pas très bien résoudre,
03:28 je ne saurais pas définir la conscience.
03:29 Mais par contre, avoir des systèmes qui soient capables de l'équivalent d'émotion,
03:34 pour moi ça ne fait aucun doute que oui, les systèmes intelligents du futur
03:37 auront l'équivalent des émotions.
03:40 Alors il y a deux types d'émotions chez les animaux,
03:44 les émotions instantanées, c'est-à-dire si on vous pince,
03:48 ça vous fait mal, vous n'avez pas besoin d'être intelligent
03:51 pour savoir si ça vous fait mal, c'est instantané.
03:54 Donc si par exemple je m'approche et je vous pince,
03:58 vous allez être très surpris, probablement ça va vous faire mal,
04:00 la deuxième fois que je vais essayer de faire ça, vous allez reculer,
04:03 parce que vous pouvez prédire que je vais vous pincer.
04:06 Donc là, il y a un problème de prédiction,
04:09 et surtout de prédiction d'un résultat,
04:12 c'est-à-dire est-ce que la prédiction de ce qui va se passer dans le futur
04:18 produit un résultat bénéfique ou pas ?
04:22 Et ça c'est une émotion.
04:24 Les systèmes intelligents qui sont capables de planifier les actions
04:27 devront avoir ces capacités de prédiction,
04:29 et donc auront l'équivalent des émotions, seront capables de prédire
04:32 si un résultat va être positif ou négatif.
04:35 Donc ça peut aider effectivement à donner à la machine
04:36 certaines sensations physiques peut-être,
04:39 ou ce qui ressemble à des sensations physiques ?
04:40 Physiques ou pas physiques, mais ça sera un petit peu l'équivalent
04:42 de l'émotion, les capacités à prédire le résultat,
04:47 le caractère positif ou négatif d'un résultat.
04:49 [Musique]
Commentaires