¿Qué son los tokens de IA? Explicación de precios, ventana de contexto y tokens de imagen/video

Si has utilizado herramientas de IA como ChatGPT, Claude o Gemini, es probable que hayas visto el término "tokens" por todas partes. Ya sea en los precios de las API, los límites de los modelos o las "ventanas de contexto", los tokens son la base de cómo funciona realmente la IA.

Entonces, ¿qué son exactamente los tokens y por qué son tan importantes? Esta guía lo explica todo de forma clara y práctica.

¿Qué son los tokens?

A nivel básico:

Un token es la unidad más pequeña de texto que procesa un modelo de IA.

No es exactamente una palabra o un carácter. Un token puede ser:

Una palabra completahello)
Parte de una palabraun + believable)
Signos de puntuación., ,)
Un solo carácter chino o palabra (dependiendo de la tokenización)

Ejemplo:

I love AI tools

Tokenizado como:

[“I”, “love”, “AI”, “tools”] → 4 tokens

Pero en una palabra más compleja:

unbelievable

Podría convertirse en:

[“un”, “believ”, “able”] → 3 tokens

¿Por qué no cobrar por recuento de palabras?

Surge una pregunta común: ¿por qué las plataformas de IA no cobran simplemente por número de palabras o caracteres, al igual que los servicios de traducción tradicionales? El cambio a la facturación basada en tokens se debe a tres necesidades técnicas fundamentales. En primer lugar, la estandarización lingüística es casi imposible con el recuento de palabras. Mientras que el inglés se basa en espacios claros entre palabras, idiomas como el chino no lo hacen, y otros como el japonés o el coreano poseen estructuras morfológicas muy complejas. Los tokens proporcionan una métrica universal que estandariza los costes de procesamiento en todas las lenguas humanas.

En segundo lugar, los tokens representan cómo piensan realmente los modelos. Los modelos de IA no ven frases o palabras como lo hacen los humanos; en su lugar, procesan secuencias de vectores matemáticos. El flujo de trabajo se desplaza de $Input \rightarrow Tokenization \rightarrow Vectors \rightarrow Model$ y, finalmente, vuelve a $Output Tokens$. En esta arquitectura, los tokens son la verdadera unidad computacional del "cerebro" del sistema.

Por último, la tokenización permite una fijación de precios más precisa basada en la complejidad computacional real. Las palabras sencillas y comunes pueden requerir un solo token, mientras que los términos técnicos poco frecuentes o las cadenas de código complejas requieren varios tokens para desglosarse. Al facturar basándose en tokens en lugar de caracteres, las plataformas pueden garantizar que el precio refleje con exactitud la potencia de la GPU y el cómputo del mundo real consumidos por el modelo para generar una respuesta específica.

Tokens vs. Palabras: ¿cuál es la diferencia?

Tipo de contenido	1 token ≈
Inglés	~0.75 palabras
Chino	~1 carácter
Texto mixto	1–4 caracteres

Ejemplo:

1,000 tokens ≈
- ~750 palabras en inglés
- ~1,000 caracteres chinos

En muchos casos, el contenido en chino es más eficiente en cuanto al uso de tokens.

Cómo funciona el sistema de precios de la IA

La fórmula fundamental para la facturación de la IA es sencilla: Tokens de entrada + Tokens de salida = Uso total. Para visualizar esto, considere una interacción típica en la que solicita al sistema que realice una tarea. Si su instrucción es "Escribe un artículo de SEO", esa breve indicación podría representar 10 tokens de entrada. A continuación, la IA genera una respuesta exhaustiva que podría alcanzar los 500 tokens de salida. En este escenario, la cantidad total facturada por la transacción sería de 510 tokens. Este desglose es crucial porque la mayoría de los proveedores fijan precios diferentes para los tokens de entrada y de salida, ya que generar texto nuevo suele requerir más potencia de cálculo que leer las instrucciones proporcionadas.

Por qué los tokens de salida son más caros

En muchas plataformas:

Tokens de entrada = más baratos
Tokens de salida = más caros

Razón:
Generar texto requiere más computación que leerlo

¿Qué es una ventana de contexto?

Otro concepto clave:

La ventana de contexto es el número máximo de tokens que un modelo puede "recordar" a la vez.

Ejemplos:

Contexto de 8K → ~8,000 tokens
Contexto de 32K → ~32,000 tokens
Contexto de 128K → documentos muy largos

Ejemplo real:

Historial de conversación:

Turno 1: 100 tokens Turno 2: 200 tokens Turno 3: 300 tokens

Por qué es importante la ventana de contexto

La ventana de contexto es un factor crítico porque define directamente los límites de la capacidad operativa de una IA. En primer lugar, dicta los límites de la longitud del contenido que el modelo puede manejar a la vez. Ya sea que estés generando artículos de formato largo, analizando documentos PDF extensos o manteniendo conversaciones prolongadas de varios turnos, la ventana de contexto determina cuánta información se puede procesar antes de que el modelo comience a perder el hilo de los datos anteriores.

En segundo lugar, el tamaño de esta ventana afecta significativamente la calidad general de la memoria y el rendimiento de la IA. Una ventana de contexto más grande permite una comprensión más profunda de las relaciones complejas dentro de los datos, lo que conduce a respuestas más coherentes y contextualmente relevantes. Cuando un modelo puede "ver" más del historial de la conversación o del documento a la vez, es menos probable que alucine o se contradiga a sí mismo. Finalmente, la ventana de contexto tiene un impacto directo en el costo. Utilizar más del contexto disponible significa procesar un mayor volumen de tokens, lo que inevitablemente conduce a un aumento en el uso de tokens y mayores gastos operativos por cada solicitud.
Más tokens → mayor costo

Los tokens son la moneda, la memoria y la unidad de cómputo de los sistemas de IA.

La inteligencia artificial está impactando y remodelando profundamente nuestra vida cotidiana.

Tokens de IA en imágenes y videos

A medida que la IA evoluciona del procesamiento de texto a la comprensión de medios visuales, el concepto de tokens también se ha expandido. Cuando utilizas modelos multimodales como GPT-4o o Gemini 1.5 Pro para generar o analizar imágenes y videos, el sistema no los ve como archivos, sino como tokens visuales especializados.

Cómo se calculan los tokens de imagen

Cuando subes una imagen a un modelo de IA, este no interpreta la imagen como un todo de la misma manera que lo hacemos los humanos. En su lugar, la imagen se transforma primero en un formato estructurado que el modelo puede procesar matemáticamente. El proceso comienza dividiendo la imagen en una cuadrícula de regiones pequeñas, comúnmente denominadas parches (patches) o teselas (tiles). Cada parche representa un bloque de píxeles de tamaño fijo, como 16x16 o 32x32 píxeles, según el diseño del modelo. Después de esta división, cada parche se convierte en una representación numérica conocida como incrustación (embedding). Esta incrustación captura características visuales importantes como colores, bordes, texturas y patrones. En este sentido, cada parche funciona de manera similar a un token en el procesamiento de texto. Al igual que una oración se divide en tokens para un modelo de lenguaje, una imagen se divide en parches para un modelo de visión. El número total de parches generados a partir de una imagen afecta directamente a la cantidad de cálculo necesario.

Para fines de facturación, la mayoría de las plataformas de IA simplifican este proceso subyacente utilizando un costo de tokens fijo o un sistema de precios basado en la resolución. A las imágenes de menor resolución se les suele asignar un rango de tokens estándar, normalmente entre 85 y 800 tokens por imagen. Esto permite a las plataformas ofrecer precios predecibles sin exponer a los usuarios a la complejidad de los cálculos a nivel de parches. Cuando se trata de imágenes de mayor resolución, el cálculo se vuelve más detallado. En lugar de procesar la imagen como una sola unidad, el sistema la divide en múltiples teselas (tiles). Cada tesela se procesa por separado, generando su propio conjunto de parches y consumiendo tokens adicionales. A medida que aumenta la resolución de la imagen, también aumenta el número de teselas, lo que conlleva un mayor uso total de tokens. Por ejemplo, una imagen de alta resolución puede requerir varias veces más tokens que una imagen más pequeña debido a la mayor cantidad de elementos visuales que contiene.

Otro factor importante es la complejidad visual. Una imagen sencilla con grandes áreas de color sólido requiere menos parches para ser representada, mientras que una imagen detallada —como un gráfico, una captura de pantalla o un diagrama— contiene más bordes, texto y estructuras finas. Estos detalles requieren más parches para codificarse con precisión, lo que aumenta el número total de tokens necesarios. Incluso si dos imágenes tienen la misma resolución, la más compleja puede consumir más recursos computacionales. Algunos modelos avanzados también aplican estrategias de procesamiento dinámico, donde las regiones con más detalle reciben más atención o una representación más fina, mientras que las áreas más simples se comprimen de manera más eficiente. Aunque esto ocurre internamente y no es visible directamente para los usuarios, refuerza la idea de que tanto la resolución como el contenido influyen en el uso de tokens.

En resumen, el cálculo de tokens de imagen se basa en cómo se divide una imagen en parches y se convierte en datos numéricos. Cada parche actúa como una unidad de cómputo, similar a un token en el texto. Aunque las plataformas a menudo simplifican los precios mediante modelos fijos o basados en la resolución, el principio básico sigue siendo el mismo: una mayor resolución y un mayor detalle dan como resultado más parches, lo que conduce a un mayor consumo de tokens.

Cómo se calculan los tokens de video

Captura de pantalla de la interfaz de demostración de video de OpenAI Sora

El procesamiento de video es significativamente más complejo que el de imágenes porque introduce una dimensión adicional: el tiempo. En lugar de analizar un solo fotograma estático, los modelos de IA deben interpretar una secuencia de fotogramas que juntos forman el movimiento y el contexto. Para gestionar esto de manera eficiente, la mayoría de los modelos no procesan cada uno de los fotogramas de un video. En su lugar, utilizan una técnica llamada muestreo de fotogramas (frame sampling), en la que se extraen fotogramas a un intervalo fijo, como un fotograma por segundo o unos pocos fotogramas por segundo, según la tarea y la configuración del modelo. Cada fotograma muestreado se trata de la misma manera que una imagen. El modelo divide el fotograma en parches, los convierte en incrustaciones numéricas y los procesa como tokens visuales. En otras palabras, cada fotograma muestreado aporta su propio conjunto de tokens, al igual que lo haría una imagen individual. Esto significa que el uso de tokens de video es esencialmente la acumulación de tokens de todos los fotogramas muestreados.

El número total de tokens necesarios para un video se puede estimar multiplicando el número de fotogramas muestreados por el costo de tokens por fotograma. Por ejemplo, si un modelo muestrea un fotograma por segundo de un video de un minuto, procesará 60 fotogramas. Si cada fotograma corresponde a un cierto número de tokens según su resolución, entonces el total de tokens de entrada será la suma de todos esos fotogramas. Los fotogramas de mayor resolución o los visuales más complejos dentro de cada fotograma pueden aumentar aún más el recuento de tokens. Esta es la razón por la cual los videos más largos se vuelven costosos de procesar rápidamente. Aumentar la duración del video incrementa el número de fotogramas muestreados, y aumentar la tasa de muestreo hace que este crecimiento sea aún más rápido. Por ejemplo, muestrear dos fotogramas por segundo en lugar de uno duplicaría el número de fotogramas y, en consecuencia, duplicaría el uso de tokens. Del mismo modo, los videos de alta resolución amplifican el costo porque cada fotograma contiene más datos visuales para codificar.

Otro factor importante es la coherencia temporal. Algunos modelos avanzados intentan comprender el movimiento y las relaciones entre los fotogramas, en lugar de limitarse a tratarlos como imágenes aisladas. Si bien esto puede mejorar la precisión en tareas como el reconocimiento de acciones o la comprensión de escenas, también aumenta la complejidad computacional y puede requerir representaciones internas adicionales más allá del simple conteo de tokens basado en fotogramas. Debido a que el uso de tokens de video crece rápidamente tanto con la duración como con la resolución, impone grandes exigencias a la ventana de contexto del modelo. Todos los fotogramas muestreados, junto con cualquier entrada y salida de texto asociada, deben caber dentro del límite máximo de tokens del modelo. Esta es la razón por la cual a menudo se requieren modelos de contexto amplio para el análisis de video. Los modelos con ventanas de contexto muy grandes, que a veces superan el millón de tokens, están diseñados específicamente para manejar secuencias largas de datos visuales y textuales sin perder información importante.

En resumen, los tokens de video se calculan dividiendo un video en fotogramas muestreados y luego procesando cada fotograma como una imagen. El uso total de tokens depende de tres factores principales: la duración del video, la tasa de muestreo de fotogramas y la resolución y complejidad de cada fotograma. A medida que estos factores aumentan, el consumo de tokens crece rápidamente, lo que convierte al video en uno de los tipos de entrada que más recursos consume para los sistemas de IA.

Al igual que los modelos de texto se han vuelto más eficientes con el tiempo, la tokenización visual también está mejorando. Los modelos más nuevos son cada vez mejores comprimiendo datos visuales, lo que les permite comprender videos más largos e imágenes de mayor resolución sin un aumento proporcional en el costo. Para los usuarios, entender esto ayuda a optimizar los flujos de trabajo; por ejemplo, recortar una imagen al área más importante o acortar un clip de video puede reducir significativamente el recuento de tokens y disminuir los gastos de la API.

¿Qué son los tokens de IA? Explicación de precios, ventana de contexto y tokens de imagen/video