بحث
كيف يمكن للتخزين الدلالي تقليل تكاليف نماذج اللغة
الذكاء الاصطناعي #التخزين_الدلالي #نموذج_اللغة_الكبير

كيف يمكن للتخزين الدلالي تقليل تكاليف نماذج اللغة

منذ 11 ساعة 6 مشاهدة 0 تعليق 1 دقائق قراءة
6 مشاهدة
0 إعجاب
0 تعليق
موثوق 95%

كانت فاتورة واجهة برمجة التطبيقات الخاصة بنا لنموذج اللغة الكبير (LLM) تنمو بنسبة 30% شهريًا. رغم أن حركة المرور كانت تتزايد، إلا أن الزيادة لم تكن بهذا القدر. عند تحليل سجلات الاستفسارات، اكتشفت المشكلة الحقيقية: المستخدمون يطرحون نفس الأسئلة بطرق مختلفة.

كانت الأسئلة مثل "ما هي سياسة الإرجاع الخاصة بك؟" و"كيف يمكنني إرجاع شيء ما؟" و"هل يمكنني الحصول على استرداد؟" تصل جميعها إلى نموذج اللغة الكبير بشكل منفصل، مما ينتج عنه استجابات متشابهة تقريبًا، وكل منها يتكبد تكاليف واجهة برمجة التطبيقات بالكامل.

كان التخزين المؤقت المطابق تمامًا، وهو الحل الأول الواضح، يلتقط 18% فقط من هذه المكالمات الزائدة. الأسئلة المتشابهة في المعنى، ولكن بصياغات مختلفة، كانت تتجاوز التخزين المؤقت تمامًا.

لذا، قمت بتنفيذ التخزين المؤقت الدلالي بناءً على ما تعنيه الاستفسارات، وليس على كيفية صياغتها. بعد تطبيقه، زادت نسبة نجاح التخزين المؤقت لدينا إلى 67%، مما قلل من تكاليف واجهة برمجة التطبيقات لنموذج اللغة الكبير بنسبة 73%. لكن الوصول إلى هذه النتيجة يتطلب حل مشاكل تتجاهلها التطبيقات الساذجة.

لماذا التخزين المؤقت المطابق تمامًا غير كافٍ

يستخدم التخزين المؤقت التقليدي نص الاستفسار كمفتاح للتخزين المؤقت. هذا يعمل عندما تكون الاستفسارات متطابقة. لكن المستخدمين لا يطرحون الأسئلة بنفس الصياغة. وجدت في تحليلي لـ 100,000 استفسار في الإنتاج:

  • فقط 18% كانت نسخًا مطابقة تمامًا للاستفسارات السابقة

  • 47% كانت مشابهة دلاليًا للاستفسارات السابقة (نفس النية، صياغة مختلفة)

  • 35% كانت استفسارات جديدة تمامًا

كانت تلك النسبة البالغة 47% تمثل توفيرًا كبيرًا في التكاليف التي كنا نفتقدها. كل استفسار مشابه دلاليًا كان يتسبب في استدعاء كامل لنموذج اللغة الكبير، مما ينتج عنه استجابة مشابهة تقريبًا لتلك التي حسبناها بالفعل.

بنية التخزين المؤقت الدلالي

يستبدل التخزين المؤقت الدلالي المفاتيح المعتمدة على النص بالبحث عن التشابه القائم على التضمين. تعتبر عتبة التشابه هي المعامل الحاسم. إذا قمت بتعيينها مرتفعة جدًا، ستفوت استجابات التخزين المؤقت الصحيحة. وإذا كانت منخفضة جدًا، ستعيد استجابات خاطئة.

كانت عتبتنا الأولية 0.85 تبدو معقولة؛ 85% تشابه يجب أن تعني "نفس السؤال"، أليس كذلك؟ خطأ. عند 0.85، حصلنا على استجابات مخزنة مثل:

  • استفسار: "كيف يمكنني إلغاء اشتراكي؟"

  • المخزنة: "كيف يمكنني إلغاء طلبي؟"

  • التشابه: 0.87

هذه أسئلة مختلفة بإجابات مختلفة. سيكون من غير الصحيح إعادة الاستجابة المخزنة.

مشكلة العتبة

اكتشفت أن العتبات المثلى تختلف حسب نوع الاستفسار. قمت بتنفيذ عتبات خاصة بنوع الاستفسار، مما ساعد في تحسين دقة التخزين المؤقت.

زيادة زمن الاستجابة

يضيف التخزين المؤقت الدلالي زمن استجابة، لكن الزيادة البالغة 20ms غير ملحوظة مقارنةً باستدعاء نموذج اللغة الكبير الذي يبلغ 850ms الذي نتجنبه عند نجاح التخزين المؤقت. حتى عند p99، فإن الزيادة البالغة 47ms مقبولة.

إبطال التخزين المؤقت

تتجمد الاستجابات المخزنة. نفذت ثلاث استراتيجيات للإبطال، بما في ذلك انتهاء بسيط بناءً على نوع المحتوى وإبطال المعتمد على الحدث.

نتائج الإنتاج

بعد ثلاثة أشهر في الإنتاج:

المقياس

قبل

بعد

التغيير

معدل ضربات الذاكرة المؤقتة

18%

67%

+272%

تكاليف واجهة برمجة التطبيقات LLM

$47K/شهر

$12.7K/شهر

-73%

متوسط زمن الاستجابة

850ms

300ms

-65%

كان معدل الإيجابيات الكاذبة البالغ 0.8% ضمن الحدود المقبولة. حدثت هذه الحالات في الغالب عند حدود العتبة لدينا، حيث كان التشابه أعلى قليلاً من الحد الأدنى ولكن النية اختلفت قليلاً.

النقاط الرئيسية

يعد التخزين الدلالي نمطًا عمليًا للتحكم في تكاليف LLM التي تلتقط التكرار الذي تفوتها التخزين المباشر. مع تقليل التكلفة بنسبة 73%، كانت هذه أعلى تحسين لعائد الاستثمار لدينا في أنظمة LLM الإنتاجية.

التعليقات 0

سجل دخولك لإضافة تعليق

لا توجد تعليقات بعد. كن أول من يعلق!