Gem Heaven

Что такое AI-токены? Объяснение ценообразования, контекстного окна и токенов изображений/видео

Если вы пользовались такими инструментами ИИ, как ChatGPT, Claude или Gemini, вы, вероятно, повсюду встречали термин «токены». Будь то стоимость API, ограничения моделей или «контекстные окна», токены лежат в основе того, как на самом деле работает ИИ.

Так что же такое токены и почему они так важны? В этом руководстве мы разберем всё четко и на практических примерах.

Токены ИИ
Токены ИИ

Что такое токены?

На базовом уровне:

Токен — это минимальная единица текста, которую обрабатывает модель ИИ.

Это не совсем слово или символ. Токен может быть:

  • Целое словоhello)
  • Часть словаun + believable)
  • Пунктуация., ,)
  • Один китайский иероглиф или слово (в зависимости от токенизации)

Пример:

I love AI tools

Токенизировано как:

[“I”, “love”, “AI”, “tools”] → 4 tokens

Но более сложное слово:

unbelievable

Может превратиться в:

[“un”, “believ”, “able”] → 3 tokens

Почему бы не брать оплату по количеству слов?

Возникает закономерный вопрос: почему платформы ИИ просто не взимают плату за количество слов или символов, как традиционные службы перевода? Переход на тарификацию на основе токенов обусловлен тремя фундаментальными техническими причинами. Во-первых, стандартизация языков практически невозможна при подсчете слов. В то время как английский язык опирается на четкие пробелы между словами, в таких языках, как китайский, их нет, а другие, например японский или корейский, имеют крайне сложную морфологическую структуру. Токены обеспечивают универсальную метрику, которая стандартизирует затраты на обработку для всех человеческих языков.

Во-вторых, токены представляют то, как модели на самом деле «думают». Модели ИИ не видят предложения или слова так, как их видят люди; вместо этого они обрабатывают последовательности математических векторов. Рабочий процесс выглядит так: $Input \rightarrow Tokenization \rightarrow Vectors \rightarrow Model$, и, наконец, обратно к $Output Tokens$. В этой архитектуре токены являются истинной вычислительной единицей «мозга» системы.

Наконец, токенизация позволяет более точно определять стоимость на основе фактической вычислительной сложности. Для простых и общеупотребительных слов может потребоваться всего один токен, в то время как редкие технические термины или сложные строки кода требуют нескольких токенов для их разложения. Взимая плату на основе токенов, а не символов, платформы могут гарантировать, что цена точно отражает реальную мощность GPU и вычислительные ресурсы, затраченные моделью на генерацию конкретного ответа.

Токены против слов: в чем разница?

Тип контента1 токен ≈
английский~0.75 слова
китайский~1 символ
Смешанный текст1–4 символа

Пример:

  • 1 000 токенов ≈
    • ~750 английских слов
    • ~1 000 китайских иероглифов

Во многих случаях китайский контент более эффективен с точки зрения расхода токенов.

Как работает ценообразование в сфере ИИ

Основная формула тарификации ИИ проста: входные токены + выходные токены = общий объем использования. Чтобы визуализировать это, рассмотрим типичное взаимодействие, когда вы просите систему выполнить задачу. Если ваш запрос звучит как «Напиши статью для SEO», эта короткая инструкция может составить 10 входных токенов. Затем ИИ генерирует развернутый ответ, который может занять 500 выходных токенов. В этом сценарии общий оплачиваемый объем транзакции составит 510 токенов. Такое разделение имеет решающее значение, поскольку большинство провайдеров устанавливают разные тарифы на входные и выходные токены, так как генерация нового текста обычно требует больших вычислительных мощностей, чем чтение предоставленных инструкций.

Почему выходные токены стоят дороже

На многих платформах:

  • Входные токены = дешевле
  • Выходные токены = дороже

Причина:
Генерация текста требует больше вычислений, чем его чтение

Что такое контекстное окно?

Еще одна ключевая концепция:

Контекстное окно — это максимальное количество токенов, которое модель может «помнить» одновременно.

Примеры:

  • Контекст 8K → ~8 000 токенов
  • Контекст 32K → ~32 000 токенов
  • Контекст 128K → очень длинные документы

Реальный пример:

История диалога:

Раунд 1: 100 токенов Раунд 2: 200 токенов Раунд 3: 300 токенов

Почему важно контекстное окно

Контекстное окно является критическим фактором, поскольку оно напрямую определяет границы операционных возможностей ИИ. Во-первых, оно диктует ограничения на длину контента, который модель может обработать за один раз. Независимо от того, создаете ли вы длинные статьи, анализируете объемные PDF-документы или ведете обширные многоэтапные диалоги, контекстное окно определяет, какой объем информации может быть обработан до того, как модель начнет терять связь с более ранними данными.

Во-вторых, размер этого окна существенно влияет на общее качество памяти и производительность ИИ. Большее контекстное окно позволяет глубже понимать сложные взаимосвязи в данных, что ведет к более связным и контекстуально релевантным ответам. Когда модель может «видеть» большую часть истории диалога или документа одновременно, она с меньшей вероятностью будет галлюцинировать или противоречить сама себе. Наконец, контекстное окно напрямую влияет на стоимость. Использование большего объема доступного контекста означает обработку большего количества токенов, что неизбежно ведет к увеличению расхода токенов и повышению операционных затрат на каждый запрос.
Больше токенов → выше стоимость

Токены — это валюта, память и единица вычислений ИИ-систем.

Искусственный интеллект оказывает глубокое влияние на нашу повседневную жизнь и меняет её облик.
Искусственный интеллект оказывает глубокое влияние на нашу повседневную жизнь и меняет её облик.

AI-токены в изображениях и видео

По мере того как ИИ эволюционирует от обработки текста к пониманию визуальных медиа, концепция токенов также расширяется. Когда вы используете мультимодальные модели, такие как GPT-4o или Gemini 1.5 Pro, для создания или анализа изображений и видео, система воспринимает их не как файлы, а как специализированные визуальные токены.

Как рассчитываются токены изображений

Когда вы загружаете изображение в модель ИИ, она не интерпретирует картинку целиком так, как это делают люди. Вместо этого изображение сначала преобразуется в структурированный формат, который модель может обработать математически. Процесс начинается с разделения изображения на сетку мелких областей, которые обычно называют «патчами» (patches) или «тайлами» (tiles). Каждый патч представляет собой блок пикселей фиксированного размера, например 16x16 или 32x32 пикселя, в зависимости от архитектуры модели. После этого разделения каждый патч преобразуется в числовое представление, известное как эмбеддинг (embedding). Этот эмбеддинг фиксирует важные визуальные характеристики, такие как цвета, края, текстуры и узоры. В этом смысле каждый патч функционирует аналогично токену в обработке текста. Подобно тому как предложение разбивается на токены для языковой модели, изображение разбивается на патчи для визуальной модели. Общее количество патчей, созданных из изображения, напрямую влияет на объем необходимых вычислений.

В целях тарификации большинство ИИ-платформ упрощают этот базовый процесс, используя либо фиксированную стоимость в токенах, либо систему ценообразования на основе разрешения. Изображениям с низким разрешением часто назначается стандартный диапазон токенов, обычно от 85 до 800 токенов за изображение. Это позволяет платформам обеспечивать предсказуемые цены, не вовлекая пользователей в сложности вычислений на уровне патчей. При работе с изображениями высокого разрешения расчет становится более детализированным. Вместо того чтобы обрабатывать изображение как единое целое, система разделяет его на несколько тайлов. Затем каждый тайл обрабатывается отдельно, создавая собственный набор патчей и потребляя дополнительные токены. По мере увеличения разрешения изображения увеличивается и количество тайлов, что приводит к более высокому общему расходу токенов. Например, изображение высокого разрешения может потребовать в несколько раз больше токенов, чем маленькое изображение, из-за большего количества содержащихся в нем визуальных элементов.

Еще одним важным фактором является визуальная сложность. Простая картинка с большими однотонными областями требует меньше патчей для представления, в то время как детализированное изображение — например, график, скриншот или диаграмма — содержит больше краев, текста и мелких структур. Эти детали требуют большего количества патчей для точного кодирования, что увеличивает общее количество необходимых токенов. Даже если два изображения имеют одинаковое разрешение, более сложное из них может потреблять больше вычислительных ресурсов. Некоторые продвинутые модели также применяют стратегии динамической обработки, при которых областям с большей детализацией уделяется больше внимания или более точное представление, в то время как простые области сжимаются более эффективно. Хотя это происходит внутри системы и не видно пользователю напрямую, это подтверждает идею о том, что и разрешение, и содержание влияют на расход токенов.

Подводя итог, расчет токенов изображения основан на том, как изображение делится на патчи и преобразуется в числовые данные. Каждый патч выступает в качестве единицы вычислений, подобно токену в тексте. Хотя платформы часто упрощают ценообразование с помощью фиксированных моделей или моделей на основе разрешения, основной принцип остается неизменным: более высокое разрешение и большая детализация приводят к увеличению количества патчей, что влечет за собой более высокий расход токенов.

Как рассчитываются видеотокены

Скриншот интерфейса демонстрации видео OpenAI Sora
Скриншот интерфейса демонстрации видео OpenAI Sora

Обработка видео значительно сложнее обработки изображений, так как она вводит дополнительное измерение: время. Вместо того чтобы анализировать один статический кадр, модели ИИ должны интерпретировать последовательность кадров, которые вместе формируют движение и контекст. Чтобы эффективно управлять этим процессом, большинство моделей не обрабатывают каждый кадр видео. Вместо этого они используют метод, называемый выборкой кадров (frame sampling), при котором кадры извлекаются через фиксированный интервал, например один или несколько кадров в секунду, в зависимости от задачи и конфигурации модели. Затем каждый выбранный кадр обрабатывается так же, как и изображение. Модель разделяет кадр на патчи, преобразует их в числовые эмбеддинги и обрабатывает как визуальные токены. Другими словами, каждый выбранный кадр вносит свой собственный набор токенов, точно так же, как отдельное изображение. Это означает, что использование видеотокенов — это, по сути, накопление токенов всех выбранных кадров.

Общее количество токенов, необходимых для видео, можно оценить, умножив количество выбранных кадров на стоимость токенов за один кадр. Например, если модель извлекает один кадр в секунду из одноминутного видео, она обработает 60 кадров. Если каждый кадр соответствует определенному количеству токенов в зависимости от его разрешения, то общее количество входных токенов будет суммой всех этих кадров. Кадры с более высоким разрешением или более сложные визуальные эффекты внутри каждого кадра могут еще больше увеличить количество токенов. Вот почему обработка длинных видео быстро становится дорогой. Увеличение длительности видео увеличивает количество выбранных кадров, а повышение частоты выборки делает этот рост еще быстрее. Например, выборка двух кадров в секунду вместо одного удвоит количество кадров и, следовательно, удвоит расход токенов. Аналогично, видео высокого разрешения увеличивают стоимость, так как каждый кадр содержит больше визуальных данных для кодирования.

Еще одним важным фактором является временная связность (temporal coherence). Некоторые продвинутые модели пытаются понять движение и взаимосвязи между кадрами, а не просто рассматривают их как изолированные изображения. Хотя это может повысить точность в таких задачах, как распознавание действий или понимание сцены, это также увеличивает вычислительную сложность и может потребовать дополнительных внутренних представлений, выходящих за рамки простого подсчета токенов на основе кадров. Поскольку использование видеотокенов быстро растет вместе с длительностью и разрешением, это предъявляет серьезные требования к контекстному окну модели. Все выбранные кадры вместе с любым связанным текстовым вводом и выводом должны вписываться в максимальный лимит токенов модели. Вот почему для анализа видео часто требуются модели с большим контекстом. Модели с очень большими контекстными окнами, иногда превышающими один миллион токенов, специально разработаны для обработки длинных последовательностей визуальных и текстовых данных без потери важной информации.

Подводя итог, видеотокены рассчитываются путем разделения видео на выбранные кадры с последующей обработкой каждого кадра как изображения. Общий расход токенов зависит от трех основных факторов: длительности видео, частоты выборки кадров, а также разрешения и сложности каждого кадра. По мере роста этих факторов потребление токенов быстро увеличивается, что делает видео одним из самых ресурсозатратных типов входных данных для систем ИИ.

Подобно тому как текстовые модели со временем стали более эффективными, совершенствуется и визуальная токенизация. Новые модели лучше справляются со сжатием визуальных данных, что позволяет им понимать более длинные видео и изображения с более высоким разрешением без пропорционального роста затрат. Для пользователей понимание этого помогает оптимизировать рабочие процессы: например, обрезка изображения до самой важной области или сокращение видеоклипа может значительно уменьшить количество токенов и снизить ваши расходы на API.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *