Gem Heaven

ما هي رموز الذكاء الاصطناعي؟ شرح التسعير ونافذة السياق ورموز الصور والفيديو

إذا كنت قد استخدمت أدوات الذكاء الاصطناعي مثل ChatGPT أو Claude أو Gemini، فمن المحتمل أنك رأيت مصطلح "الرموز" (tokens) في كل مكان. سواء كان ذلك في تسعير واجهة برمجة التطبيقات (API)، أو حدود النماذج، أو "نوافذ السياق"، فإن الرموز هي جوهر كيفية عمل الذكاء الاصطناعي بالفعل.

إذاً ما هي الرموز (tokens) بالضبط، ولماذا هي مهمة إلى هذا الحد؟ يقدم هذا الدليل شرحاً وافياً لكل ذلك بطريقة واضحة وعملية.

رموز الذكاء الاصطناعي
رموز الذكاء الاصطناعي

ما هي الرموز (Tokens)؟

على المستوى الأساسي:

الرمز (Token) هو أصغر وحدة نصية يعالجها نموذج الذكاء الاصطناعي.

إنه ليس كلمة أو حرفاً بالضبط. يمكن أن يكون الرمز:

  • كلمة كاملةhello)
  • جزء من كلمةun + believable)
  • علامات الترقيم., ,)
  • حرف صيني واحد أو كلمة (حسب عملية تقسيم الرموز)

مثال:

I love AI tools

تم تقسيمها إلى رموز (Tokens) كالتالي:

[“I”, “love”, “AI”, “tools”] → 4 tokens

ولكن بالنسبة لكلمة أكثر تعقيداً:

unbelievable

قد تصبح:

[“un”, “believ”, “able”] → 3 tokens

لماذا لا يتم المحاسبة بناءً على عدد الكلمات؟

يطرح سؤال شائع نفسه: لماذا لا تفرض منصات الذكاء الاصطناعي رسومًا ببساطة حسب عدد الكلمات أو الحروف، تماماً مثل خدمات الترجمة التقليدية؟ إن التحول إلى الفوترة القائمة على الرموز (Tokens) مدفوع بثلاث ضرورات تقنية أساسية. أولاً، توحيد معايير اللغة يكاد يكون مستحيلاً مع الاعتماد على عدد الكلمات؛ فبينما تعتمد اللغة الإنجليزية على مسافات واضحة بين الكلمات، فإن لغات مثل الصينية لا تتبع ذلك، ولغات أخرى مثل اليابانية أو الكورية تمتلك هياكل صرفية شديدة التعقيد. توفر الرموز مقياساً عالمياً يوحد تكاليف المعالجة عبر جميع اللغات البشرية.

ثانياً، تمثل الرموز (Tokens) الطريقة التي تفكر بها النماذج فعلياً. لا ترى نماذج الذكاء الاصطناعي الجمل أو الكلمات كما يراها البشر؛ بدلاً من ذلك، فهي تعالج تسلسلات من المتجهات الرياضية. ينتقل سير العمل من $Input \rightarrow Tokenization \rightarrow Vectors \rightarrow Model$، وفي النهاية يعود إلى $Output Tokens$. في هذه البنية، تعتبر الرموز هي وحدة الحوسبة الحقيقية لـ "دماغ" النظام.

وأخيراً، تسمح عملية تقسيم الرموز (Tokenization) بتسعير أكثر دقة بناءً على التعقيد الحسابي الفعلي. قد تتطلب الكلمات البسيطة والشائعة رمزاً واحداً فقط، بينما تتطلب المصطلحات التقنية النادرة أو سلاسل الأكواد المعقدة رموزاً متعددة لتفكيكها. من خلال الفوترة بناءً على الرموز بدلاً من الأحرف، يمكن للمنصات ضمان أن التسعير يعكس بدقة قوة وحدة معالجة الرسومات (GPU) والحوسبة الحقيقية التي استهلكها النموذج لإنشاء رد محدد.

الرموز مقابل الكلمات: ما الفرق؟

نوع المحتوىرمز واحد (Token) ≈
الإنجليزية٠.٧٥ كلمة تقريباً
الصينيةحرف واحد تقريباً
نص مختلط١–٤ أحرف تقريباً

مثال:

  • ١٠٠٠ رمز (Token) تقريباً
    • ٧٥٠ كلمة إنجليزية تقريباً
    • ١٠٠٠ حرف صيني تقريباً

في كثير من الحالات، يكون المحتوى الصيني أكثر كفاءة من حيث الرموز (Tokens).

كيف تعمل آلية تسعير الذكاء الاصطناعي

الصيغة الأساسية لفوترة الذكاء الاصطناعي بسيطة: رموز الإدخال + رموز الإخراج = إجمالي الاستخدام. ولتوضيح ذلك، تخيل تفاعلاً نموذجياً تطلب فيه من النظام تنفيذ مهمة ما. إذا كان أمرك (Prompt) هو "اكتب مقالاً لتحسين محركات البحث"، فإن هذه التعليمات القصيرة قد تستهلك 10 رموز إدخال. بعد ذلك، يقوم الذكاء الاصطناعي بإنشاء رد شامل قد يصل إلى 500 رمز إخراج. في هذا السيناريو، سيكون إجمالي الكمية المحتسبة عليك للمعاملة هو 510 رموز. يعد هذا التفصيل أمراً بالغ الأهمية لأن معظم المزودين يسعرون رموز الإدخال والإخراج بمعدلات مختلفة، حيث يتطلب إنشاء نص جديد عادةً قوة حسابية أكبر من قراءة التعليمات المقدمة.

لماذا تكلفة رموز الإخراج أعلى

في العديد من المنصات:

  • رموز الإدخال = أرخص ثمنًا
  • رموز الإخراج = أغلى ثمنًا

السبب:
يتطلب توليد النصوص عمليات حوسبة أكثر من قراءتها

ما هي نافذة السياق؟

مفهوم رئيسي آخر:

نافذة السياق هي أقصى عدد من الرموز (Tokens) التي يمكن للنموذج "تذكرها" في وقت واحد.

أمثلة:

  • سياق 8K ← ٨٠٠٠ رمز تقريباً
  • سياق 32K ← ٣٢٠٠٠ رمز تقريباً
  • سياق 128K ← مستندات طويلة جداً

مثال واقعي:

سجل المحادثة:

الجولة 1: 100 رمز الجولة 2: 200 رمز الجولة 3: 300 رمز

لماذا تهم نافذة السياق

تُعد نافذة السياق عاملاً حاسماً لأنها تحدد بشكل مباشر حدود القدرة التشغيلية للذكاء الاصطناعي. أولاً، هي تفرض قيوداً على طول المحتوى الذي يمكن للنموذج التعامل معه في وقت واحد. سواء كنت تقوم بإنشاء مقالات طويلة، أو تحليل مستندات PDF ضخمة، أو إدارة محادثات متعددة الجولات، فإن نافذة السياق تحدد كمية المعلومات التي يمكن معالجتها قبل أن يبدأ النموذج في فقدان تتبع البيانات السابقة.

ثانياً، يؤثر حجم هذه النافذة بشكل كبير على الجودة الشاملة لذاكرة الذكاء الاصطناعي وأدائه. تسمح نافذة السياق الأكبر بفهم أعمق للعلاقات المعقدة داخل البيانات، مما يؤدي إلى ردود أكثر تماسكاً وملاءمة للسياق. عندما يتمكن النموذج من "رؤية" المزيد من سجل المحادثة أو المستند في وقت واحد، يقل احتمال حدوث "هلوسة" أو تناقض مع نفسه. أخيراً، نافذة السياق لها تأثير مباشر على التكلفة؛ فاستغلال المزيد من السياق المتاح يعني معالجة حجم أكبر من الرموز (Tokens)، مما يؤدي حتماً إلى زيادة استهلاك الرموز وارتفاع النفقات التشغيلية لكل طلب.
رموز أكثر ← تكلفة أعلى

الرموز (Tokens) هي العملة والذاكرة ووحدة الحوسبة في أنظمة الذكاء الاصطناعي.

يؤثر الذكاء الاصطناعي بشكل عميق على حياتنا اليومية ويعيد تشكيلها.
يؤثر الذكاء الاصطناعي بشكل عميق على حياتنا اليومية ويعيد تشكيلها.

رموز الذكاء الاصطناعي في الصور والفيديو

مع تطور الذكاء الاصطناعي من معالجة النصوص إلى فهم الوسائط المرئية، توسع مفهوم الرموز (Tokens) أيضاً. عندما تستخدم نماذج متعددة الوسائط مثل GPT-4o أو Gemini 1.5 Pro لإنشاء أو تحليل الصور والفيديو، فإن النظام لا يراها كملفات، بل كرموز مرئية متخصصة.

كيف يتم حساب رموز الصور

عندما تقوم بتحميل صورة إلى نموذج ذكاء اصطناعي، فإنه لا يفسر الصورة ككل كما يفعل البشر. بدلاً من ذلك، يتم تحويل الصورة أولاً إلى تنسيق منظم يمكن للنموذج معالجته رياضياً. تبدأ العملية بتقسيم الصورة إلى شبكة من المناطق الصغيرة، والتي يشار إليها عادةً باسم "الرقع" (patches) أو "البلاطات" (tiles). تمثل كل رقعة كتلة من البكسلات ذات حجم ثابت، مثل 16×16 أو 32×32 بكسل، اعتماداً على تصميم النموذج. بعد هذا التقسيم، يتم تحويل كل رقعة إلى تمثيل رقمي يُعرف باسم "التضمين" (embedding). يلتقط هذا التضمين سمات مرئية مهمة مثل الألوان والحواف والأنسجة والأنماط. بهذا المعنى، تعمل كل رقعة بشكل مشابه للرمز (token) في معالجة النصوص. تماماً كما يتم تقسيم الجملة إلى رموز لنموذج لغوي، يتم تقسيم الصورة إلى رقع لنموذج بصري. يؤثر إجمالي عدد الرقع الناتجة عن الصورة بشكل مباشر على مقدار الحوسبة المطلوبة.

لأغراض الفوترة، تبسط معظم منصات الذكاء الاصطناعي هذه العملية الأساسية باستخدام إما تكلفة ثابتة للرموز أو نظام تسعير يعتمد على الدقة. غالباً ما يتم تخصيص نطاق قياسي من الرموز للصور ذات الدقة المنخفضة، يتراوح عادةً بين 85 و800 رمز لكل صورة. يتيح ذلك للمنصات تقديم تسعير يمكن التنبؤ به دون تعريض المستخدمين لتعقيدات الحسابات على مستوى الرقع. عند التعامل مع الصور عالية الدقة، يصبح الحساب أكثر تفصيلاً؛ فبدلاً من معالجة الصورة كوحدة واحدة، يقسمها النظام إلى عدة بلاطات (tiles). ثم تتم معالجة كل بلاطة على حدة، مما يؤدي إلى إنشاء مجموعة الرقع الخاصة بها واستهلاك رموز إضافية. ومع زيادة دقة الصورة، يزداد عدد البلاطات، مما يؤدي إلى ارتفاع إجمالي استهلاك الرموز. على سبيل المثال، يمكن أن تتطلب الصورة عالية الدقة رموزاً أكثر بعدة مرات من الصورة الصغيرة بسبب العدد الأكبر من العناصر المرئية التي تحتوي عليها.

هناك عامل مهم آخر وهو التعقيد المرئي. فالصورة البسيطة التي تحتوي على مساحات كبيرة من الألوان الموحدة تتطلب رقعاً أقل لتمثيلها، بينما تحتوي الصورة المفصلة — مثل الرسم البياني أو لقطة الشاشة أو المخطط التوضيحي — على المزيد من الحواف والنصوص والهياكل الدقيقة. تتطلب هذه التفاصيل المزيد من الرقع لترميزها بدقة، مما يزيد من إجمالي عدد الرموز المطلوبة. وحتى إذا كانت لصوريتن الدقة نفسها، فإن الصورة الأكثر تعقيداً قد تستهلك موارد حوسبة أكبر. تطبق بعض النماذج المتقدمة أيضاً استراتيجيات معالجة ديناميكية، حيث تحظى المناطق ذات التفاصيل الأكثر باهتمام أكبر أو تمثيل أدق، بينما يتم ضغط المناطق الأبسط بكفاءة أعلى. وعلى الرغم من أن هذا يحدث داخلياً وغير مرئي للمستخدمين بشكل مباشر، إلا أنه يعزز فكرة أن كلاً من الدقة والمحتوى يؤثران على استهلاك الرموز.

باختصار، يعتمد حساب رموز الصور على كيفية تقسيم الصورة إلى رقع وتحويلها إلى بيانات رقمية. تعمل كل رقعة كوحدة حسابية، على غرار الرمز في النص. وبينما تتبنى المنصات غالباً نماذج تسعير مبسطة ثابتة أو تعتمد على الدقة، يظل المبدأ الأساسي ثابتاً: تؤدي الدقة الأعلى والتفاصيل الأكبر إلى إنتاج رقع أكثر، مما يؤدي إلى استهلاك أكبر للرموز.

كيف يتم حساب رموز الفيديو

لقطة شاشة لواجهة عرض فيديوهات OpenAI Sora
لقطة شاشة لواجهة عرض فيديوهات OpenAI Sora

تُعد معالجة الفيديو أكثر تعقيداً بشكل ملحوظ من معالجة الصور لأنها تقدم بُعداً إضافياً: الوقت. فبدلاً من تحليل إطار ثابت واحد، يجب على نماذج الذكاء الاصطناعي تفسير سلسلة من الإطارات التي تشكل معاً الحركة والسياق. ولإدارة ذلك بكفاءة، لا تعالج معظم النماذج كل إطار في الفيديو؛ بل تستخدم تقنية تسمى "أخذ عينات الإطارات" (frame sampling)، حيث يتم استخراج الإطارات بفاصل زمني ثابت، مثل إطار واحد في الثانية أو بضعة إطارات في الثانية، اعتماداً على المهمة وتكوين النموذج. ثم يتم التعامل مع كل إطار تم أخذ عينة منه بنفس طريقة التعامل مع الصورة؛ حيث يقسم النموذج الإطار إلى رقع، ويحول تلك الرقع إلى تضمينات رقمية، ويعالجها كرموز مرئية. بمعنى آخر، يساهم كل إطار تم أخذ عينة منه بمجموعة الرموز الخاصة به، تماماً كما تفعل الصورة المنفردة. وهذا يعني أن استهلاك رموز الفيديو هو في الأساس تراكم للرموز من جميع الإطارات التي تم أخذ عينات منها.

يمكن تقدير إجمالي عدد الرموز المطلوبة للفيديو بضرب عدد الإطارات التي تم أخذ عينات منها في تكلفة الرموز لكل إطار. على سبيل المثال، إذا قام نموذج بأخذ عينة من إطار واحد في الثانية من فيديو مدته دقيقة واحدة، فسيعالج 60 إطاراً. إذا كان كل إطار يتوافق مع عدد معين من الرموز بناءً على دقته، فإن إجمالي رموز الإدخال سيكون مجموع كل تلك الإطارات. كما يمكن للإطارات ذات الدقة الأعلى أو المرئيات الأكثر تعقيداً داخل كل إطار أن تزيد من عدد الرموز بشكل أكبر. هذا هو السبب في أن معالجة مقاطع الفيديو الأطول تصبح مكلفة بسرعة. فزيادة مدة الفيديو تزيد من عدد الإطارات التي تم أخذ عينات منها، وزيادة معدل أخذ العينات تجعل هذا النمو أسرع. على سبيل المثال، أخذ عينة من إطارين في الثانية بدلاً من إطار واحد سيضاعف عدد الإطارات، وبالتالي يضاعف استهلاك الرموز. وبالمثل، تضخم مقاطع الفيديو عالية الدقة التكلفة لأن كل إطار يحتوي على المزيد من البيانات المرئية لترميزها.

ثمة عامل مهم آخر وهو التماسك الزمني (temporal coherence). تحاول بعض النماذج المتقدمة فهم الحركة والعلاقات بين الإطارات، بدلاً من مجرد معاملتها كصور معزولة. وفي حين أن هذا يمكن أن يحسن الدقة في مهام مثل التعرف على الأفعال أو فهم المشهد، إلا أنه يزيد أيضاً من التعقيد الحسابي وقد يتطلب تمثيلات داخلية إضافية تتجاوز مجرد عد الرموز القائم على الإطارات. ونظراً لأن استهلاك رموز الفيديو ينمو بسرعة مع كل من الطول والدقة، فإنه يضع متطلبات ثقيلة على نافذة السياق الخاصة بالنموذج. يجب أن تندرج جميع الإطارات التي تم أخذ عينات منها، إلى جانب أي إدخال أو إخراج نصي مرتبط، ضمن الحد الأقصى للرموز في النموذج. وهذا هو السبب في أن نماذج السياق الكبير غالباً ما تكون مطلوبة لتحليل الفيديو. النماذج ذات نوافذ السياق الكبيرة جداً، والتي تتجاوز أحياناً مليون رمز، مصممة خصيصاً للتعامل مع تسلسلات طويلة من البيانات المرئية والنصية دون فقدان معلومات مهمة.

باختصار، يتم حساب رموز الفيديو عن طريق تقسيم الفيديو إلى إطارات تم أخذ عينات منها ثم معالجة كل إطار كصورة. يعتمد إجمالي استخدام الرموز على ثلاثة عوامل رئيسية: مدة الفيديو، ومعدل أخذ عينات الإطارات، ودقة وتعقيد كل إطار. ومع زيادة هذه العوامل، ينمو استهلاك الرموز بسرعة، مما يجعل الفيديو أحد أكثر أنواع المدخلات استهلاكاً للموارد في أنظمة الذكاء الاصطناعي.

تماماً كما أصبحت نماذج النصوص أكثر كفاءة بمرور الوقت، فإن ترميز البيانات المرئية (visual tokenization) في تحسن مستمر أيضاً. أصبحت النماذج الأحدث أفضل في ضغط البيانات المرئية، مما يسمح لها بفهم مقاطع فيديو أطول وصور ذات دقة أعلى دون زيادة طردية في التكلفة. بالنسبة للمستخدمين، يساعد فهم هذا الأمر في تحسين سير العمل؛ فعلى سبيل المثال، يمكن لقص الصورة للتركيز على المنطقة الأكثر أهمية أو تقصير مقطع الفيديو أن يقلل بشكل كبير من عدد الرموز ويخفض مصاريف واجهة برمجة التطبيقات (API).

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *