PowerInfer-2:專為智慧型手機設計的高效大型語言模型推理框架
PowerInfer-2是一個為智慧型手機特別最佳化的推理框架,支援高達47B引數的MoE模型,實作了每秒11.68個token的推理速度,比其他框架快22倍。它透過異構計算和I/O-Compute流水線技術,顯著減少了記憶體使用,並提高了推理速度。該框架適用於需要在行動裝置上部署大型模型的場景,以增強資料隱私和效能。
PowerInfer-2是一個為智慧型手機特別最佳化的推理框架,支援高達47B引數的MoE模型,實作了每秒11.68個token的推理速度,比其他框架快22倍。它透過異構計算和I/O-Compute流水線技術,顯著減少了記憶體使用,並提高了推理速度。該框架適用於需要在行動裝置上部署大型模型的場景,以增強資料隱私和效能。