روش جدید NVIDIA AI برای بهینهسازی کش کلید با کاهش ۲ تا ۴ برابری
مقدمه با پیشرفت روزافزون مدلهای یادگیری ماشین و بهویژه مدلهای ترنسفورمر، حجم دادههایی که این مدلها پردازش میکنند، به طرز چشمگیری افزایش یافته است. یکی از نقاط ضعف اصلی در این مدلها، کش کلید و ارزش (KV Cache) است که به دلیل حجم بالای داده، به یک گلوگاه در کاربردهای…







