SwiftInfer:基於TensorRT框架的大規模語言模型推理加速庫
SwiftInfer是一個基於Nvidia TensorRT框架的大規模語言模型(LLM)推理加速庫,透過GPU加速,極大提升LLM在生產環境中的推理效能。該專案針對流式語言模型提出的Attention Sink機制進行了實現,支援無限長度的文字生成。程式碼簡潔,執行方便,支援主流的大規模語言模型。
SwiftInfer是一個基於Nvidia TensorRT框架的大規模語言模型(LLM)推理加速庫,透過GPU加速,極大提升LLM在生產環境中的推理效能。該專案針對流式語言模型提出的Attention Sink機制進行了實現,支援無限長度的文字生成。程式碼簡潔,執行方便,支援主流的大規模語言模型。
Stable-Diffusion-WebUI-TensorRT是一個用於Stable Diffusion的TensorRT加速擴充套件,可在NVIDIA RTX GPU上實現最佳效能。該擴充套件需要安裝並生成最佳化的引擎才能使用。支援Stable Diffusion 1.5和2.1版本。安裝步驟請參考官方網址。使用時,可以生成預設引擎,選擇TRT模型,加速生成影象。可以根據需要生成多個最佳化引擎。詳細的使用說明和常見問題請參考官方檔案。