多提供商大语言模型访问
通过单一网关为开发者提供 OpenAI、Azure、Gemini、Bedrock 和 Anthropic 模型访问。
成本追踪与费用分摊
通过将成本归因到密钥、用户、团队或组织,精确核算各团队的 LLM 使用费用。
预算与速率限制管理
设置预算和速率限制(RPM/TPM)以控制支出并防止过度使用。
大语言模型故障转移
当主要提供商故障或过载时,自动将请求路由至备用模型。
可观测性与日志记录
将支出记录至 S3、GCS 或其他存储,并集成 Langfuse、Arize Phoenix、Langsmith 和 OpenTelemetry 等可观测性工具。
提示词管理
管理和格式化提示词,支持 Hugging Face 模型。
企业级访问控制
通过 JWT 认证、SSO 和审计日志,实现大型组织内安全可控的大语言模型访问。
支出追踪
自动追踪 OpenAI、Azure、Bedrock、GCP 等提供商的成本,支持按密钥/用户/团队/组织归因,并提供基于标签的支出追踪。
预算与速率限制
设置按密钥或按团队的预算,通过 RPM/TPM 限制控制使用量。
OpenAI 兼容 API
所有请求均采用 OpenAI 格式,开发者无需跨提供商转换输入输出。
大语言模型故障转移
配置自动故障转移,当主要提供商不可用时切换至备用模型。
虚拟密钥与团队
创建虚拟 API 密钥,管理团队,并大规模分配预算。
大语言模型护栏
应用护栏机制过滤或修改 LLM 输出,确保安全合规。
批量 API 支持
批量处理多个请求以提高效率。
透传端点
在需要时直接将请求转发至底层提供商。
提示词管理
为不同模型(包括 Hugging Face 模型)格式化提示词,无需手动转换。
S3 日志记录
将所有支出和使用数据记录至 S3、GCS 或其他云存储,便于审计。
Berri AI的LLM网关,用于管理100多个LLM的身份验证、负载均衡和支出跟踪,全部采用OpenAI格式。
分类:聚合平台
访问链接:https://litellm.ai/
标签:LLM网关、OpenAI格式、支出追踪、负载均衡、多LLM管理