推理

vLLM：快速易用的LLM推理和服務平臺

LLM, 推理

vLLM是一個為大型語言模型(LLM)推理和提供服務的快速、易用且高效的庫。它透過使用最新的服務吞吐量技術、高效的記憶體管理、連續批處理請求、CUDA/HIP圖快速模型執行、量化技術、最佳化的CUDA核心等，提供了高效能的推理服務。

湯很熱： AI 驅動的海龜湯遊戲平臺

推理, 懸疑

「湯很熱」是一個以 AI 驅動的海龜湯遊戲平臺，旨在為使用者提供一個充滿懸疑和推理樂趣的遊戲體驗。使用者可以透過提出問題來推理故事的背後真相，挑戰自己的邏輯思維和想象力。部分故事包含恐怖和血腥元素，增加了遊戲的刺激感。

Orca 2：小型語言模型用於推理和理解任務

推理, 語言模型

Orca 2 是一個用於研究目的的助手，透過提供單輪響應來幫助推理和理解任務，如資料推理、閱讀理解、數學問題解決和文字摘要。該模型特別擅長推理。我們公開發布 Orca 2，以促進在開發、評估和對齊更小的語言模型方面的進一步研究。

MathCoder是一款基於開源語言模型的數學推理工具，透過fine-tune模型和生成高質量的資料集，實現了自然語言、程式碼和執行結果的交替，提高了數學推理能力。MathCoder模型在MATH和GSM8K資料集上取得了最新的最高分數，遠遠超過其他開源替代品。MathCoder模型不僅在GSM8K和MATH上超過了ChatGPT-3.5和PaLM-2，還在競賽級別的MATH資料集上超過了GPT-4。

Efficient LLM：高效的 Intel GPU 上的 LLM 推理解決方案

LLM, 推理

這是一種在 Intel GPU 上實現的高效的 LLM 推理解決方案。透過簡化 LLM 解碼器層、使用分段 KV 快取策略和自定義的 Scaled-Dot-Product-Attention 核心，該解決方案在 Intel GPU 上相比標準的 HuggingFace 實現可實現高達 7 倍的令牌延遲降低和 27 倍的吞吐量提升。詳細功能、優勢、定價和定位等資訊請參考官方網站。

推理

vLLM：快速易用的LLM推理和服務平臺

湯很熱： AI 驅動的海龜湯遊戲平臺

Orca 2：小型語言模型用於推理和理解任務

MathCoder：數學推理LLM

Efficient LLM：高效的 Intel GPU 上的 LLM 推理解決方案