マルチバックエンドアーキテクチャ
テキスト生成とビジョン(GGUFモデル)向けのllama.cpp、および拡散モデルによる画像・動画生成向けのComfyUIをサポート。
ハイブリッドGPU/CPUオフローディング
GPUとCPU間でレイヤーをインテリジェントに分割することで、わずか4GBのVRAMで130億パラメータモデルを実行可能。
自動量子化
利用可能なVRAMに基づいて最適な品質の量子化レベルを自動選択し、パフォーマンスと精度のバランスを調整。
CPUアクセラレーション
AVX2/AVX512最適化を採用し、Ollamaのデフォルト設定と比較して30~50%高速な推論を実現。
KVキャッシュ対応メモリ計画
KVキャッシュに基づいてメモリ使用量を正確に計画し、メモリ不足(OOM)クラッシュを防止。
メモリ負荷モニター
メモリ関連のクラッシュが発生する前にユーザーに積極的に警告し、設定調整の時間を確保。
アイドルクリーンアップ
15分間の非アクティブ状態後、GPUおよびCPUリソースを自動解放し、リソースの無駄を削減。
ゼロレイテンシサーバーモード
リクエスト処理時にモデルをメモリにキャッシュし、即座に応答。
Oprel Studio
チャット、モデル管理、リアルタイムハードウェアモニタリング、統合RAG(検索拡張生成)を備えたプレミアムWeb UI。
Ollama API互換性
Ollama APIのドロップイン代替として機能し、移行を容易にします。
pip install oprel。サーバーモードの場合は pip install oprel[server] を使用。インストール後、Oprelランタイムを使用してモデルをロードし、ハイブリッドオフローディングや自動量子化を設定して推論を実行できます。完全なWebインターフェースにはOprel Studioを使用します。詳細なドキュメントとサンプルは、プロジェクトの公式ホームページおよびドキュメントリンクから入手可能です。Oprel社製の高性能Pythonライブラリ。大規模言語モデルをローカルで実行し、プロダクション対応のランタイム、高度なメモリ管理、ハイブリッドオフロード、完全なマルチモーダルサポートを提供。
分類:トレーニングデプロイメントツール
アクセスリンク:https://pypi.org/project/oprel/0.6.0/
タグ:LLM、Pythonライブラリ、ローカル推論、マルチモーダル、メモリ管理