كيف يمكن للتخزين الدلالي تقليل تكاليف نماذج اللغة

كانت فاتورة واجهة برمجة التطبيقات الخاصة بنا لنموذج اللغة الكبير (LLM) تنمو بنسبة 30% شهريًا. رغم أن حركة المرور كانت تتزايد، إلا أن الزيادة لم تكن بهذا القدر. عند تحليل سجلات الاستفسارات، اكتشفت المشكلة الحقيقية: المستخدمون يطرحون نفس الأسئلة بطرق مختلفة.

كانت الأسئلة مثل "ما هي سياسة الإرجاع الخاصة بك؟" و"كيف يمكنني إرجاع شيء ما؟" و"هل يمكنني الحصول على استرداد؟" تصل جميعها إلى نموذج اللغة الكبير بشكل منفصل، مما ينتج عنه استجابات متشابهة تقريبًا، وكل منها يتكبد تكاليف واجهة برمجة التطبيقات بالكامل.

كان التخزين المؤقت المطابق تمامًا، وهو الحل الأول الواضح، يلتقط 18% فقط من هذه المكالمات الزائدة. الأسئلة المتشابهة في المعنى، ولكن بصياغات مختلفة، كانت تتجاوز التخزين المؤقت تمامًا.

لذا، قمت بتنفيذ التخزين المؤقت الدلالي بناءً على ما تعنيه الاستفسارات، وليس على كيفية صياغتها. بعد تطبيقه، زادت نسبة نجاح التخزين المؤقت لدينا إلى 67%، مما قلل من تكاليف واجهة برمجة التطبيقات لنموذج اللغة الكبير بنسبة 73%. لكن الوصول إلى هذه النتيجة يتطلب حل مشاكل تتجاهلها التطبيقات الساذجة.

لماذا التخزين المؤقت المطابق تمامًا غير كافٍ

يستخدم التخزين المؤقت التقليدي نص الاستفسار كمفتاح للتخزين المؤقت. هذا يعمل عندما تكون الاستفسارات متطابقة. لكن المستخدمين لا يطرحون الأسئلة بنفس الصياغة. وجدت في تحليلي لـ 100,000 استفسار في الإنتاج:

فقط 18% كانت نسخًا مطابقة تمامًا للاستفسارات السابقة

47% كانت مشابهة دلاليًا للاستفسارات السابقة (نفس النية، صياغة مختلفة)

35% كانت استفسارات جديدة تمامًا

كانت تلك النسبة البالغة 47% تمثل توفيرًا كبيرًا في التكاليف التي كنا نفتقدها. كل استفسار مشابه دلاليًا كان يتسبب في استدعاء كامل لنموذج اللغة الكبير، مما ينتج عنه استجابة مشابهة تقريبًا لتلك التي حسبناها بالفعل.

مقالات ذات صلة

الذكاء الاصطناعي
ميتا تعلن اتفاقيات الطاقة النووية لدعم الذكاء الاصطناعي

منذ 3 ساعات 4

الذكاء الاصطناعي
Dolby Vision 2 يصل هذا العام.. أبرز ما تحتاج معرفته

منذ 3 ساعات 0

الذكاء الاصطناعي
شركة دونات لاب تطور أول بطارية حالة صلبة جاهزة للإنتاج

منذ 3 ساعات 3

الذكاء الاصطناعي
علماء ينجحون في استخراج 98% من ذهب الهواتف القديمة خلال 20 دقيقة فقط

منذ 3 ساعات 1

الذكاء الاصطناعي
عيون ذكية للروبوتات الرعوية: ابتكار صيني جديد

منذ 3 ساعات 3

الذكاء الاصطناعي
إيلون ماسك يكشف خوارزمية منصة إكس للجمهور قريبًا

منذ 3 ساعات 0

بنية التخزين المؤقت الدلالي

يستبدل التخزين المؤقت الدلالي المفاتيح المعتمدة على النص بالبحث عن التشابه القائم على التضمين. تعتبر عتبة التشابه هي المعامل الحاسم. إذا قمت بتعيينها مرتفعة جدًا، ستفوت استجابات التخزين المؤقت الصحيحة. وإذا كانت منخفضة جدًا، ستعيد استجابات خاطئة.

كانت عتبتنا الأولية 0.85 تبدو معقولة؛ 85% تشابه يجب أن تعني "نفس السؤال"، أليس كذلك؟ خطأ. عند 0.85، حصلنا على استجابات مخزنة مثل:

استفسار: "كيف يمكنني إلغاء اشتراكي؟"

المخزنة: "كيف يمكنني إلغاء طلبي؟"

التشابه: 0.87

هذه أسئلة مختلفة بإجابات مختلفة. سيكون من غير الصحيح إعادة الاستجابة المخزنة.

مشكلة العتبة

اكتشفت أن العتبات المثلى تختلف حسب نوع الاستفسار. قمت بتنفيذ عتبات خاصة بنوع الاستفسار، مما ساعد في تحسين دقة التخزين المؤقت.

زيادة زمن الاستجابة

يضيف التخزين المؤقت الدلالي زمن استجابة، لكن الزيادة البالغة 20ms غير ملحوظة مقارنةً باستدعاء نموذج اللغة الكبير الذي يبلغ 850ms الذي نتجنبه عند نجاح التخزين المؤقت. حتى عند p99، فإن الزيادة البالغة 47ms مقبولة.

إبطال التخزين المؤقت

تتجمد الاستجابات المخزنة. نفذت ثلاث استراتيجيات للإبطال، بما في ذلك انتهاء بسيط بناءً على نوع المحتوى وإبطال المعتمد على الحدث.

نتائج الإنتاج

بعد ثلاثة أشهر في الإنتاج:

المقياس

قبل

بعد

التغيير

معدل ضربات الذاكرة المؤقتة

18%

67%

+272%

تكاليف واجهة برمجة التطبيقات LLM

$47K/شهر

$12.7K/شهر

-73%

متوسط زمن الاستجابة

850ms

300ms

-65%

كان معدل الإيجابيات الكاذبة البالغ 0.8% ضمن الحدود المقبولة. حدثت هذه الحالات في الغالب عند حدود العتبة لدينا، حيث كان التشابه أعلى قليلاً من الحد الأدنى ولكن النية اختلفت قليلاً.

النقاط الرئيسية

يعد التخزين الدلالي نمطًا عمليًا للتحكم في تكاليف LLM التي تلتقط التكرار الذي تفوتها التخزين المباشر. مع تقليل التكلفة بنسبة 73%، كانت هذه أعلى تحسين لعائد الاستثمار لدينا في أنظمة LLM الإنتاجية.

كيف يمكن للتخزين الدلالي تقليل تكاليف نماذج اللغة

لماذا التخزين المؤقت المطابق تمامًا غير كافٍ

بنية التخزين المؤقت الدلالي

مشكلة العتبة

زيادة زمن الاستجابة

إبطال التخزين المؤقت

نتائج الإنتاج

النقاط الرئيسية

الأمن السيبراني

تسريب قاعدة بيانات منتدى BreachForums يكشف معلومات حساسة

إسبانيا تعتقل 34 مشتبهاً بهم في جرائم الإنترنت المرتبطة بـ Black Axe

عميلة الضرائب الفرنسية تبيع بيانات مستخدمي العملات المشفرة للمجرمين

تسريب قاعدة بيانات منتدى BreachForums يكشف 324,000 حساب

إندونيسيا تحظر مؤقتاً Grok بسبب الصور العميقة

3 تطبيقات مفتوحة المصدر يجب على المحترفين استخدامها

التعليقات 0

المقياس	قبل	بعد	التغيير
معدل ضربات الذاكرة المؤقتة	18%	67%	+272%
تكاليف واجهة برمجة التطبيقات LLM	$47K/شهر	$12.7K/شهر	-73%
متوسط زمن الاستجابة	850ms	300ms	-65%

لماذا التخزين المؤقت المطابق تمامًا غير كافٍ

ميتا تعلن اتفاقيات الطاقة النووية لدعم الذكاء الاصطناعي

Dolby Vision 2 يصل هذا العام.. أبرز ما تحتاج معرفته

شركة دونات لاب تطور أول بطارية حالة صلبة جاهزة للإنتاج

علماء ينجحون في استخراج 98% من ذهب الهواتف القديمة خلال 20 دقيقة فقط

عيون ذكية للروبوتات الرعوية: ابتكار صيني جديد

إيلون ماسك يكشف خوارزمية منصة إكس للجمهور قريبًا

بنية التخزين المؤقت الدلالي

مشكلة العتبة

زيادة زمن الاستجابة

إبطال التخزين المؤقت

نتائج الإنتاج

النقاط الرئيسية

الأمن السيبراني

تسريب قاعدة بيانات منتدى BreachForums يكشف معلومات حساسة

إسبانيا تعتقل 34 مشتبهاً بهم في جرائم الإنترنت المرتبطة بـ Black Axe

عميلة الضرائب الفرنسية تبيع بيانات مستخدمي العملات المشفرة للمجرمين

تسريب قاعدة بيانات منتدى BreachForums يكشف 324,000 حساب

إندونيسيا تحظر مؤقتاً Grok بسبب الصور العميقة

3 تطبيقات مفتوحة المصدر يجب على المحترفين استخدامها

شارك هذا المقال

التعليقات 0

مرحباً بعودتك!

إنشاء حساب جديد

تأكيد البريد الإلكتروني

صفحات الموقع

مركز المساعدة

سياسة الخصوصية

شروط الاستخدام

من نحن

تواصل معنا