Que sont les tokens d'IA ? Tarification, fenêtre de contexte et tokens image/vidéo expliqués

Si vous avez utilisé des outils d'IA comme ChatGPT, Claude ou Gemini, vous avez probablement vu le terme « tokens » partout. Qu'il s'agisse de la tarification de l'API, des limites du modèle ou des « fenêtres de contexte », les tokens sont au cœur du fonctionnement réel de l'IA.

Alors, que sont exactement les tokens et pourquoi sont-ils si importants ? Ce guide vous explique tout de manière claire et pratique.

Que sont les tokens ?

À la base :

Un token est la plus petite unité de texte qu'un modèle d'IA traite.

Ce n'est pas exactement un mot ou un caractère. Un token peut être :

Un mot entierhello)
Une partie d'un motun + believable)
Ponctuation., ,)
Un seul caractère chinois ou mot (selon la tokenisation)

Exemple :

I love AI tools

Tokenisé comme suit :

[“I”, “love”, “AI”, “tools”] → 4 tokens

Mais pour un mot plus complexe :

unbelievable

Pourrait devenir :

[“un”, “believ”, “able”] → 3 tokens

Pourquoi ne pas facturer au nombre de mots ?

Une question courante se pose : pourquoi les plateformes d'IA ne facturent-elles pas simplement au mot ou au caractère, à l'instar des services de traduction traditionnels ? Le passage à la facturation par tokens est motivé par trois nécessités techniques fondamentales. Premièrement, la standardisation linguistique est presque impossible avec le décompte des mots. Alors que l'anglais repose sur des espaces clairs entre les mots, des langues comme le chinois n'en ont pas, et d'autres comme le japonais ou le coréen possèdent des structures morphologiques très complexes. Les tokens fournissent une mesure universelle qui standardise les coûts de traitement pour toutes les langues humaines.

Deuxièmement, les tokens représentent la manière dont les modèles « pensent » réellement. Les modèles d'IA ne voient pas les phrases ou les mots comme les humains ; ils traitent plutôt des séquences de vecteurs mathématiques. Le flux de travail passe par $Input \rightarrow Tokenization \rightarrow Vectors \rightarrow Model$, pour finir par un retour aux $Output Tokens$. Dans cette architecture, les tokens sont la véritable unité de calcul du « cerveau » du système.

Enfin, la tokenisation permet une tarification plus précise basée sur la complexité informatique réelle. Des mots simples et courants peuvent ne nécessiter qu'un seul token, tandis que des termes techniques rares ou des chaînes de code complexes nécessitent plusieurs tokens pour être décomposés. En facturant sur la base des tokens plutôt que des caractères, les plateformes peuvent garantir que la tarification reflète fidèlement la puissance GPU et les ressources informatiques réellement consommées par le modèle pour générer une réponse spécifique.

Tokens vs Mots : quelle est la différence ?

Type de contenu	1 token ≈
Anglais	~0.75 mot
Chinois	~1 caractère
Texte mixte	1 à 4 caractères

Exemple :

1 000 tokens ≈
- ~750 mots anglais
- ~1 000 caractères chinois

Dans de nombreux cas, le contenu en chinois est plus efficace en termes de tokens.

Comment fonctionne la tarification de l'IA

La formule fondamentale de la facturation de l'IA est simple : Tokens d'entrée + Tokens de sortie = Utilisation totale. Pour illustrer cela, prenons une interaction typique où vous demandez au système d'effectuer une tâche. Si votre invite est « Rédiger un article SEO », cette instruction courte pourrait représenter 10 tokens d'entrée. L'IA génère ensuite une réponse complète pouvant s'étendre sur 500 tokens de sortie. Dans ce scénario, le montant total facturé pour la transaction serait de 510 tokens. Cette distinction est cruciale car la plupart des fournisseurs tarifient les tokens d'entrée et de sortie à des taux différents, la génération de nouveau texte nécessitant généralement plus de puissance de calcul que la lecture des instructions fournies.

Pourquoi les tokens de sortie coûtent plus cher

Sur de nombreuses plateformes :

Tokens d'entrée = moins chers
Tokens de sortie = plus chers

Raison :
La génération de texte nécessite plus de calculs que sa lecture

Qu'est-ce qu'une fenêtre de contexte ?

Un autre concept clé :

La fenêtre de contexte est le nombre maximum de tokens qu'un modèle peut « mémoriser » à la fois.

Exemples :

Contexte 8K → ~8 000 tokens
Contexte 32K → ~32 000 tokens
Contexte 128K → documents très longs

Exemple concret :

Historique de la conversation :

Tour 1 : 100 tokens Tour 2 : 200 tokens Tour 3 : 300 tokens

Pourquoi la fenêtre de contexte est importante

La fenêtre de contexte est un facteur critique car elle définit directement les limites de la capacité opérationnelle d'une IA. Premièrement, elle dicte les limites de longueur de contenu que le modèle peut gérer à la fois. Que vous génériez des articles longs, analysiez des documents PDF volumineux ou mainteniez des conversations multi-tours étendues, la fenêtre de contexte détermine la quantité d'informations pouvant être traitées avant que le modèle ne commence à perdre la trace des données antérieures.

Deuxièmement, la taille de cette fenêtre affecte considérablement la qualité globale de la mémoire et des performances de l'IA. Une fenêtre de contexte plus large permet une compréhension plus profonde des relations complexes au sein des données, ce qui conduit à des réponses plus cohérentes et plus pertinentes par rapport au contexte. Lorsqu'un modèle peut « voir » une plus grande partie de l'historique de la conversation ou du document à la fois, il est moins susceptible d'avoir des hallucinations ou de se contredire. Enfin, la fenêtre de contexte a un impact direct sur le coût. Utiliser davantage le contexte disponible signifie traiter un volume plus élevé de tokens, ce qui entraîne inévitablement une augmentation de l'utilisation des tokens et des frais opérationnels plus élevés pour chaque requête.
Plus de tokens → coût plus élevé

Les tokens sont la monnaie, la mémoire et l'unité de calcul des systèmes d'IA.

L'intelligence artificielle impacte et façonne profondément notre vie quotidienne.

Les tokens d'IA dans les images et les vidéos

À mesure que l'IA évolue du traitement de texte à la compréhension des médias visuels, le concept de tokens s'est également élargi. Lorsque vous utilisez des modèles multimodaux comme GPT-4o ou Gemini 1.5 Pro pour générer ou analyser des images et des vidéos, le système ne les voit pas comme des fichiers, mais comme des tokens visuels spécialisés.

Comment les tokens d'image sont calculés

Lorsque vous téléchargez une image dans un modèle d'IA, celui-ci n'interprète pas l'image dans son ensemble comme le feraient les humains. Au lieu de cela, l'image est d'abord transformée dans un format structuré que le modèle peut traiter mathématiquement. Le processus commence par la division de l'image en une grille de petites régions, communément appelées patchs ou tuiles (tiles). Chaque patch représente un bloc de pixels de taille fixe, par exemple 16x16 ou 32x32 pixels, selon la conception du modèle. Après cette division, chaque patch est converti en une représentation numérique appelée plongement (embedding). Ce plongement capture des caractéristiques visuelles importantes telles que les couleurs, les bords, les textures et les motifs. En ce sens, chaque patch fonctionne de manière similaire à un token dans le traitement de texte. Tout comme une phrase est décomposée en tokens pour un modèle de langage, une image est décomposée en patchs pour un modèle de vision. Le nombre total de patchs générés à partir d'une image affecte directement la quantité de calcul requise.

À des fins de facturation, la plupart des plateformes d'IA simplifient ce processus sous-jacent en utilisant soit un coût fixe en tokens, soit un système de tarification basé sur la résolution. Les images de basse résolution se voient souvent attribuer une plage de tokens standard, généralement comprise entre 85 et 800 tokens par image. Cela permet aux plateformes de proposer une tarification prévisible sans exposer les utilisateurs à la complexité des calculs au niveau des patchs. Lorsqu'il s'agit d'images à haute résolution, le calcul devient plus détaillé. Au lieu de traiter l'image comme une unité unique, le système la divise en plusieurs tuiles (tiles). Chaque tuile est ensuite traitée séparément, générant son propre ensemble de patchs et consommant des tokens supplémentaires. À mesure que la résolution de l'image augmente, le nombre de tuiles augmente également, ce qui entraîne une utilisation globale de tokens plus élevée. Par exemple, une image à haute résolution peut nécessiter plusieurs fois plus de tokens qu'une image plus petite en raison du plus grand nombre d'éléments visuels qu'elle contient.

La complexité visuelle est un autre facteur important. Une image simple comportant de grandes zones de couleur unie nécessite moins de patchs pour être représentée, tandis qu'une image détaillée — telle qu'un graphique, une capture d'écran ou un diagramme — contient davantage de bords, de texte et de structures fines. Ces détails nécessitent plus de patchs pour être encodés avec précision, ce qui augmente le nombre total de tokens nécessaires. Même si deux images ont la même résolution, la plus complexe peut consommer davantage de ressources informatiques. Certains modèles avancés appliquent également des stratégies de traitement dynamique, où les régions plus détaillées reçoivent plus d'attention ou une représentation plus fine, tandis que les zones plus simples sont compressées plus efficacement. Bien que cela se produise en interne et ne soit pas directement visible par les utilisateurs, cela renforce l'idée que la résolution et le contenu influencent tous deux l'utilisation des tokens.

En résumé, le calcul des tokens d'image est basé sur la manière dont une image est divisée en patchs et convertie en données numériques. Chaque patch agit comme une unité de calcul, similaire à un token dans un texte. Bien que les plateformes simplifient souvent la tarification via des modèles fixes ou basés sur la résolution, le principe de base reste constant : une résolution plus élevée et des détails plus importants entraînent davantage de patchs, ce qui conduit à une consommation de tokens plus élevée.

Comment les tokens vidéo sont calculés

Capture d'écran de l'interface de présentation vidéo d'OpenAI Sora

Le traitement vidéo est nettement plus complexe que le traitement d'image car il introduit une dimension supplémentaire : le temps. Au lieu d'analyser une seule image statique, les modèles d'IA doivent interpréter une séquence d'images qui, ensemble, forment le mouvement et le contexte. Pour gérer cela efficacement, la plupart des modèles ne traitent pas chaque image d'une vidéo. Au lieu de cela, ils utilisent une technique appelée échantillonnage d'images (frame sampling), où les images sont extraites à un intervalle fixe, par exemple une image par seconde ou quelques images par seconde, selon la tâche et la configuration du modèle. Chaque image échantillonnée est ensuite traitée de la même manière qu'une image. Le modèle divise l'image en patchs, convertit ces patchs en plongements numériques et les traite comme des tokens visuels. En d'autres termes, chaque image échantillonnée apporte son propre ensemble de tokens, tout comme le ferait une image individuelle. Cela signifie que l'utilisation des tokens vidéo est essentiellement l'accumulation des tokens de toutes les images échantillonnées.

Le nombre total de tokens requis pour une vidéo peut être estimé en multipliant le nombre d'images échantillonnées par le coût en tokens par image. Par exemple, si un modèle échantillonne une image par seconde à partir d'une vidéo d'une minute, il traitera 60 images. Si chaque image correspond à un certain nombre de tokens en fonction de sa résolution, alors le total des tokens d'entrée sera la somme de toutes ces images. Des images de plus haute résolution ou des visuels plus complexes au sein de chaque image peuvent augmenter davantage le nombre de tokens. C'est pourquoi les vidéos plus longues deviennent rapidement coûteuses à traiter. L'augmentation de la durée de la vidéo augmente le nombre d'images échantillonnées, et l'augmentation du taux d'échantillonnage rend cette croissance encore plus rapide. Par exemple, échantillonner deux images par seconde au lieu d'une doublerait le nombre d'images et, par conséquent, doublerait l'utilisation des tokens. De même, les vidéos haute résolution amplifient le coût car chaque image contient plus de données visuelles à encoder.

La cohérence temporelle est un autre facteur important. Certains modèles avancés tentent de comprendre le mouvement et les relations entre les images, au lieu de les traiter simplement comme des images isolées. Bien que cela puisse améliorer la précision dans des tâches telles que la reconnaissance d'actions ou la compréhension de scènes, cela augmente également la complexité de calcul et peut nécessiter des représentations internes supplémentaires au-delà du simple comptage de tokens basé sur les images. Étant donné que l'utilisation des tokens vidéo croît rapidement avec la longueur et la résolution, elle impose de lourdes exigences à la fenêtre de contexte du modèle. Toutes les images échantillonnées, ainsi que toute entrée et sortie de texte associée, doivent respecter la limite maximale de tokens du modèle. C'est pourquoi des modèles à large contexte sont souvent nécessaires pour l'analyse vidéo. Des modèles dotés de fenêtres de contexte très vastes, dépassant parfois le million de tokens, sont conçus spécifiquement pour gérer de longues séquences de données visuelles et textuelles sans perdre d'informations importantes.

En résumé, les tokens vidéo sont calculés en divisant une vidéo en images échantillonnées, puis en traitant chaque image comme une image fixe. L'utilisation totale de tokens dépend de trois facteurs principaux : la durée de la vidéo, le taux d'échantillonnage des images, ainsi que la résolution et la complexité de chaque image. À mesure que ces facteurs augmentent, la consommation de tokens croît rapidement, faisant de la vidéo l'un des types d'entrée les plus gourmands en ressources pour les systèmes d'IA.

Tout comme les modèles de texte sont devenus plus efficaces avec le temps, la tokenisation visuelle s'améliore également. Les nouveaux modèles parviennent mieux à compresser les données visuelles, ce qui leur permet de comprendre des vidéos plus longues et des images de plus haute résolution sans augmentation proportionnelle du coût. Pour les utilisateurs, comprendre cela aide à optimiser les flux de travail — par exemple, recadrer une image sur la zone la plus importante ou raccourcir un clip vidéo peut réduire considérablement le nombre de tokens et diminuer vos dépenses d'API.

Que sont les tokens d'IA ? Tarification, fenêtre de contexte et tokens image/vidéo expliqués