Voici comment repérer les vidéos générées par l'IA (pour l'instant)

Avec l'arrivée du modèle texte-vidéo SORA d'OpenAI, nous regardons un avenir inévitable rempli de vidéo générée par l'IA. Mais la technologie n’est pas encore parfaite, voici donc quelques conseils pour repérer les vidéos générées par l’IA (pour l’instant).

Détecter le contenu généré par l'IA peut être un défi

À première vue, on pourrait vous pardonner de considérer les vidéos générées par l’IA comme réelles. Ce n’est que lorsque vous commencez à regarder un peu plus en profondeur que vous remarquerez peut-être que quelque chose ne va pas.

Tous les exemples dont nous parlerons dans cet article concernent le modèle de conversion texte en texte Vidéo SORA d'OpenAI, Ce qui a été annoncé en février 2024. Il s’agit de loin du modèle le plus avancé du genre, convertissant les invites textuelles en images animées. Les choses ont beaucoup évolué depuis l'avènement de Article populaire sur Reddit Il mange des spaghettis Will Smith début 2023. Au moment de la rédaction de cet article, en mars 2024, SORA est toujours en test fermé.

Détecter des photos et des vidéos générées par l’IA relève plus d’un art que d’une science exacte. Il existe des moyens de savoir si une image a été générée par l’IA, mais ils ne fonctionnent pas de manière cohérente. Les outils conçus pour la détection de contenu par l’IA sont souvent peu fiables, même lorsqu’il s’agit de texte.

L’objectif ici est de mettre en évidence certaines des façons dont vous pouvez récupérer le contenu généré par l’IA, du moins pour le moment. N'oubliez pas que les modèles évoluent constamment et que ces caractéristiques deviendront donc plus difficiles à repérer. Parfois, choisir le sujet et le contexte de votre vidéo peut faire une grande différence.

Faites attention aux changements subtils et aux « fantômes »

La recherche de changements subtils est une façon de repérer une astuce convaincante de l’IA, mais ce n’est pas vraiment facile. Un exemple de SORA d'OpenAI représente une femme marchant dans Une rue de Tokyo éclairée au néon. La scène est impressionnante pour un convertisseur texte-vidéo, si impressionnante que vous avez peut-être manqué le changement de garde-robe vers la fin de la séquence.

Les vêtements de la femme dans la scène d'ouverture montrent une robe rouge avec un cardigan long et une veste en cuir. La veste est un peu bizarre dans la manière dont elle semble se fondre avec le blazer, mais je ne suis pas vraiment un maître de la mode alors je vais la laisser passer :

Maintenant, regardez les mêmes vêtements en gros plan et vous remarquerez que la robe a maintenant des taches sombres et que la veste en cuir a des revers décentrés beaucoup plus grands :

Lisez aussi: Qu'est-ce qu'une erreur 404 ?

C’est si subtil que la plupart des gens auraient besoin de regarder les images plusieurs fois pour le comprendre. La scène est dense et pleine de réflexions et d'acteurs de fond, ce qui aide à vous distraire de ce qui ne va pas.

Une autre chose à surveiller, ce sont les fantômes ou les choses qui entrent et disparaissent. Vidéo OpenAI d'une ville de Californie La ruée vers l’or en est un bon exemple. Jetez un œil à cette figure plutôt mystérieuse, que votre esprit interprète probablement comme un homme avec un cheval :

Deux secondes plus tard, le personnage a complètement disparu. Si vous regardez la vidéo, vous verrez cette silhouette se fondre dans la terre comme s'il s'agissait d'un fantôme :

L'intelligence artificielle a du mal à gérer les doigts, les lunettes et les petits objets

L’un des plus gros problèmes auxquels sont confrontés les modèles génératifs d’IA concerne les contours et les lignes fines. En particulier, examinez de près les mains, les objets qu'elles tiennent, les lunettes et la façon dont les objets interagissent avec les caractéristiques humaines (comme les chapeaux, les casques ou même les cheveux).

La vidéo peut faciliter la détection de ce type d’erreur par rapport à la photographie générée par l’IA, car ces fonctionnalités peuvent changer d’une scène à l’autre.

Il est particulièrement difficile pour l’IA de tirer les doigts et de positionner la main. Les modèles génératifs ont tendance à produire des mains avec plus ou moins de doigts que prévu. Parfois, les choses ne semblent pas bien, ou les doigts sont trop fins, ou il y a trop de jointures. Les objets transportés présentent les mêmes fluctuations, donnant parfois l'impression que l'humain dans le cadre avait absorbé tout ce qu'ils transportent.

Recherchez des lunettes qui ne semblent pas asymétriques et qui ne se fondent pas dans les visages. En vidéo, ils peuvent entrer et sortir de la vue et changer de scène. Il en va de même pour les bras et les jambes, jetez-y un œil Vidéo SORA de personnes à Lagos, Nigeria :

Pourriez-vous retirer votre troisième bras de ma jambe, s'il vous plaît ?

Regardez attentivement les objets en arrière-plan de l'image

Les détails de l’arrière-plan sont souvent un gros révélateur lorsqu’il s’agit de vidéos générées par l’IA, encore plus que de photos. Une bonne imitation dépend du fait que le sujet soit suffisamment convaincant pour vous distraire de l'arrière-plan et ne se comporte pas tout à fait comme il le devrait.

Lisez aussi: Comment identifier une ligne à partir d'une image

Jetez à nouveau un œil à la vidéo de la scène nocturne de Tokyo. Cette scène est si dense qu'il est facile de tout prendre au pied de la lettre, mais regardez bien les gens qui marchent en arrière-plan, notamment ceux à gauche du sujet :

Une partie de ce mouvement ne semble pas correcte. À un moment donné, la personne semble se répéter. Plus tard, ce qui semble être un groupe de personnes semble se transformer en un seul être, comme si elles portaient toutes la même jupe ou le même manteau. Dans certaines zones, les animations de marche sont également bizarres.

Gardez un œil sur toute activité suspecte en arrière-plan pour détecter les vidéos générées par l'IA. Parfois, vous remarquerez que des objets naturels tels que des arbres, des champs ou des forêts réagissent de manière étrange. Les perspectives peuvent sembler incorrectes et parfois les objets animés ne s'alignent pas exactement avec le chemin indiqué dans l'animation.

Un autre exemple est une photo prise par un drone d'une côte Big Sur par OpenAI. Avez-vous déjà vu une vague qui ressemble à cela dans la nature ?

Éclairage et « AI Aura »

C'est quelque chose que nous avons souvent vu dans les images générées par l'IA, et il s'agit sans doute plus d'une « sensation » que d'un trait objectivement identifiable. Si l'éclairage semble particulièrement plat et peu naturel dans des situations où l'on s'attendrait à un contraste plus important, cela peut indiquer qu'il n'est peut-être pas réel.

Par exemple, l'absence de défauts de l'appareil photo tels que le transfert, les images fantômes (où la lumière est perdue en raison d'une trop grande quantité de lumière entrant dans l'objectif) ou la rotation des ombres (où les détails de l'ombre sont perdus en raison de l'absence de lumière) n'est pas nécessaire. Présent.

Tout cela peut ressembler à un clip vidéo hautement produit ou à des jeux vidéo d’une époque antérieure à l’éclairage réaliste et au lancer de rayons. Les sujets peuvent apparaître parfaitement éclairés lorsque vous vous y attendez le moins.

L’étrange effet de vallée

L’effet étrange de la vallée est un terme utilisé pour décrire le mélange de caractéristiques humaines et inhumaines d’une manière qui met le spectateur mal à l’aise. Les androïdes ou les robots humanoïdes sont souvent cités parce qu’ils donnent l’apparence extérieure d’êtres humains mais sont inévitablement inhumains en même temps.

Le plus souvent, l’effet étrange de la vallée se résume simplement au ressenti. Vous pouvez sentir que quelque chose ne va pas, mais vous ne pouvez pas identifier exactement quoi. Cet effet est souvent visible sur les photos et vidéos générées par l’intelligence artificielle, et l’un des domaines dans lesquels je l’ai testé était Vidéo de l'astronaute SORA.

Lisez aussi: Comment activer PlayStation Plus gratuitement sur PS4 avec des comptes Plus

Ignorant un instant que l'astronaute en question porte un casque spatial tricoté, il y a quelque chose dans ce visage qui me fait frissonner le dos :

Là Une grand-mère mystérieuse similaire échoue En soufflant ses bougies d'anniversaire, ce qui semble bien pire en mouvement :

Attention aux bêtises

Cela semble être le signal d’alarme le plus facile à repérer, mais parfois votre esprit ignore simplement les choses. La vidéo de l’astronaute mentionnée ci-dessus en est un bon exemple. Il y a une brève scène d'une porte, d'une poignée, d'un levier ou d'un objet qui n'a aucun sens :

Quelle est cette chose? Pourquoi l’animation semble-t-elle fonctionner à l’envers ? Le casque en tricot, je peux l'excuser, mais cette chose m'a intrigué dès le moment où je l'ai vu.

Il en va de même pour les mouvements. La vidéo du chat de SORA au lit est impressionnante, mais l'action n'est pas tout à fait correcte. Les propriétaires se rendront compte les chats Ce comportement est étrange et contre nature. Il semble y avoir une inadéquation entre le comportement du sujet et le contexte de la situation. Avec le temps, cela s’améliorera.

Le texte flou est un autre bon exemple des erreurs que commettent souvent les processus de génération d’IA. Les personnages japonais dans la vidéo de la scène nocturne de SORA à Tokyo sont mélangés, tout comme certains panneaux routiers et magasins. Choisir une scène où la plupart des gens ne pouvaient pas faire la différence entre le japonais et les mauvais éloges était un choix judicieux de la part d'OpenAI.

Entraînez-vous pour mieux découvrir ce contenu

La meilleure façon de vous entraîner à repérer le contenu généré par l’IA est de l’étudier vous-même. La plupart des modèles créatifs ont des communautés actives sur le Web et sur les plateformes de réseaux sociaux comme Reddit. Trouvez-en quelques-uns et jetez un œil à ce que les gens ont proposé.

De plus, vous pouvez créer vos propres images à l'aide d'un outil comme Stable Diffusion. Au moment de la rédaction de cet article, SORA d'OpenAI n'est pas encore disponible pour un usage public, vous devrez donc attendre avant de vous y plonger.

La vidéo générée par l’IA est à la fois impressionnante, fascinante et terrifiante. Au fil du temps, ces conseils perdront probablement de l’importance à mesure que les modèles surmonteront leurs faiblesses. Alors attachez votre ceinture, car vous n'avez encore rien vu.

Vidéos d'Ai