FreeLLMAPI – 开源 AI 模型聚合平台,统一OpenAI兼容格式
FreeLLMAPI是什么
FreeLLMAPI 是开源的 OpenAI 兼容代理服务,可将约 14 家 AI 服务商的免费额度聚合为单一 API 端点,每月总计约 13 亿 tokens 的免费推理额度。项目基于 TypeScript/Express 构建,支持自动故障转移、智能路由、密钥加密和用量追踪,专为个人开发者本地实验和原型验证设计。

FreeLLMAPI的主要功能
- OpenAI 兼容 API 代理:对外暴露标准的 /v1/chat/completions 与 /v1/models 端点,兼容官方 OpenAI SDK、LangChain、LlamaIndex 等客户端,仅需修改 base_url 即可接入。
- 多提供商免费额度聚合:同时接入 Google Gemini、Groq、Cerebras、SambaNova、NVIDIA NIM、Mistral、OpenRouter、GitHub Models、HuggingFace、Cohere、Cloudflare、智谱 Z.ai、Moonshot Kimi、MiniMax 等约 14 家平台,每月总计约 13 亿 tokens 免费推理额度。
- 自动故障转移:当首选提供商返回 429/5xx 或请求超时时,自动将其置为冷却状态,并按预设优先级链尝试下一家提供商,最多重试 20 次。
- 智能速率与配额追踪:针对每个 (平台, 模型, 密钥) 组合实时跟踪 RPM、RPD、TPM、TPD 用量,确保始终调用未超限的健康密钥。
- 粘性会话锁定:多轮对话在 30 分钟内锁定同一模型,防止中途切换模型导致输出质量跳变或上下文断裂。
- AES-256-GCM 密钥加密:上游提供商的 API 密钥在 SQLite 数据库中静态加密,仅在发起请求前于内存中临时解密,降低密钥泄露风险。
- 统一认证令牌管理:客户端使用单一的 freellmapi-… Bearer Token 访问代理,无需在代码中暴露多家上游真实密钥。
- SSE 流式输出:完整支持 stream: true 的 Server-Sent Events 流式返回,兼容长文本逐字生成场景。
- 工具调用(Function Calling):支持 OpenAI 风格的 tools / tool_choice 多轮工具调用流程,满足 Agent 开发需求。
- 可视化仪表盘与 Playground:内置 React/Vite 管理后台,支持拖拽调整回退链优先级、在 Playground 中快速测试模型,并查看延迟、成功率、Token 用量等 24h/7d/30d 统计数据。
- 轻量本地部署:基于 TypeScript/Express 构建,空载仅约 40MB RSS,可在树莓派等 ARM 设备上通过 PM2/systemd 常驻运行。
如何使用FreeLLMAPI
- 克隆安装:git clone https://github.com/tashfeenahmed/freellmapi.git && cd freellmapi && npm install。
- 配置密钥:cp .env.example .env 并生成 32 字节 ENCRYPTION_KEY 用于 AES-256-GCM 加密。
- 启动服务:npm run dev 同时启动后端 API(:3001)和仪表盘(:5173)。
- 添加上游 Key:在 http://localhost:5173 的 Keys 页面粘贴各平台免费 API Key。
- 调整回退链:在 Fallback Chain 页面拖拽设置提供商优先级。
- 获取统一 Token:在面板生成 freellmapi-… 单一 Bearer Token。
- SDK 调用:修改 base_url="http://localhost:3001/v1",model 设为 "auto" 或具体模型名。
- cURL 调用:向 http://localhost:3001/v1/chat/completions 发送标准 OpenAI 格式请求。
- Playground 验证:在仪表盘 Playground 中直接输入提示词测试连通性与路由情况。
- 后台常驻:通过 PM2 或 systemd 托管,可在树莓派等 ARM 设备长期运行。
FreeLLMAPI的核心优势
- OpenAI 标准兼容:对外暴露 /v1/chat/completions 与 /v1/models 端点,支持官方 OpenAI SDK、LangChain、LlamaIndex 等任意兼容客户端,仅需修改 base_url 即可接入。
- 14 家平台免费额度聚合:同时接入 Google Gemini、Groq、Cerebras、SambaNova、NVIDIA NIM、Mistral、OpenRouter、GitHub Models、HuggingFace、Cohere、Cloudflare、智谱 Z.ai、Moonshot Kimi、MiniMax 等,每月总计约 13 亿 tokens 免费推理额度。
- 自动故障转移:当首选提供商返回 429/5xx 或超时时,自动将其置为冷却并按优先级链尝试下一家,最多重试 20 次,保障服务连续性。
- 智能速率与配额追踪:针对每个 (平台, 模型, 密钥) 组合实时跟踪 RPM、RPD、TPM、TPD 用量,始终选择未超限的健康密钥,避免手动切换。
- 粘性会话机制:多轮对话在 30 分钟内锁定同一模型,防止中途切换模型导致输出质量跳变或上下文断裂。
- AES-256-GCM 密钥加密:上游提供商 API 密钥在 SQLite 中静态加密,仅在发起请求前于内存中临时解密,用完即焚,降低密钥泄露风险。
- 统一认证令牌:客户端只需使用单一的 freellmapi-… Bearer Token,无需在代码中暴露多家上游真实密钥,简化管理。
- 完整流式与工具调用:支持 SSE 流式输出(stream: true)及 OpenAI 风格的 tools / tool_choice 多轮工具调用流程。
FreeLLMAPI的项目地址
GitHub仓库:https://github.com/tashfeenahmed/freellmapi
FreeLLMAPI的同类竞品对比
| 对比维度 | FreeLLMAPI | LiteLLM | One API |
|---|---|---|---|
| 项目定位 | 开源免费 LLM 额度聚合代理,专注个人本地实验与学习 | 开源多模型统一调用 SDK + 代理网关,面向开发者与企业级 AI Gateway | 开源 API 分发管理系统,面向国内团队与企业级 Key 分发 |
| GitHub Stars | 500+ | 41.8k+ | 31.3k+ |
| 技术栈 | TypeScript / Express + React / Vite | Python(SDK + Proxy Server) | Go(完整 Web 管理后台) |
| 支持提供商 | 约 14 家免费平台(Gemini、Groq、Cerebras、GitHub Models、智谱等) | 100+ 家(OpenAI、Anthropic、Azure、Bedrock、Vertex AI、HuggingFace 等) | 国内模型覆盖最全(文心、通义、讯飞、智谱、Kimi、豆包等)+ 国际主流模型 |
| 免费额度聚合 | 核心能力,月总计约 13 亿 tokens | 不支持自动聚合免费额度,需自备各厂商 Key | 不支持自动聚合免费额度,需自备各厂商 Key |
| OpenAI 兼容 | ✅ 标准 /v1/chat/completions | ✅ 统一归一化为 OpenAI 格式 | ✅ 统一转换为 OpenAI 格式 |
| 自动故障转移 | ✅ 最多 20 次重试,冷却机制 | ✅ 支持重试、Fallback、负载均衡 | ✅ 支持负载均衡与故障切换 |
| 智能路由 | ✅ 按速率配额自动选择健康密钥 | ✅ 支持 least-busy、cheapest-completion 等多种策略 | ✅ 按渠道优先级和权重路由 |
| 速率限制追踪 | ✅ 实时跟踪 RPM/RPD/TPM/TPD | ✅ 内置限速与预算管控 | ✅ 支持 QPS/IP 限流与额度控制 |
| 密钥安全 | ✅ AES-256-GCM 静态加密 + 统一 Token | 依赖环境变量/配置文件,开源版无内置加密 | 集中式 Token 管理,支持密钥轮换 |
| 多租户/用户管理 | ❌ 单用户本地运行 | ✅ 支持多团队、多 Key、预算隔离 | ✅ 完善的用户体系、充值、配额、分组管理 |
| 成本追踪 | ❌ 无 | ✅ 按项目/用户粒度追踪 Token 消耗 | ✅ 渠道计费统计与用量分析 |
| 可视化界面 | ✅ React 仪表盘 + Playground | ❌ 无图形界面(开源版),依赖配置文件 | ✅ 中文 Web 管理界面,运营友好 |
| 流式 / 工具调用 | ✅ 完整支持 SSE 与 Function Calling | ✅ 完整支持 | ✅ 支持(New-API 增强函数调用) |
| 部署难度 | 极低,npm run dev 一键启动 | 中等,需 Python/Docker/Helm 知识 | 低,Docker 一键部署 |
FreeLLMAPI的应用场景
- 个人开发者本地实验与原型验证:项目明确面向个人学习与原型开发,将多家免费额度叠成单一本地 OpenAI 端点,无需付费即可快速验证 AI 应用创意。
- 多平台免费额度聚合调用:同时接入 Gemini、Groq、Cerebras、GitHub Models、智谱等约 14 家平台的免费档,每月总计约 13 亿 tokens,适合需要大用量但预算有限的个人项目。
- 低功耗设备常驻代理:空载仅约 40MB RSS,可在树莓派等 ARM 设备上通过 PM2/systemd 长期运行,作为家庭内网或边缘节点的轻量 AI 网关。
- OpenAI 兼容接口学习:对外暴露标准 /v1/chat/completions 端点,适合学习或调试 OpenAI SDK、LangChain、LlamaIndex 等生态工具,仅需修改 base_url 即可切换。
- 多模型快速对比测试:通过统一接口和 Playground 仪表盘,可在同一环境下快速对比不同免费提供商的响应质量、延迟与输出风格。
延伸阅读
-
LLM Council – Karpathy 开源的多模型协作框架
LLM Council是什么LLM Council 是 Andrej Karpathy 开源的多模型协作框架,通过 OpenRouter 将用户问题同时分发给多个大模型(如 Claude、GPT、Ge
-
陪读蛙 – 开源的 AI 翻译浏览器扩展工具
陪读蛙是什么陪读蛙(ReadFrog)是开源的 AI 沉浸式翻译浏览器扩展工具。工具能翻译和解读浏览器上的任何内容,支持Chrome、Edge、Firefox。通过上下文感知翻译、划词解析、TTS朗读
-
CodeGraph – 开源代码知识图谱工具,加速代码理解和分析
CodeGraph是什么CodeGraph 是面向 AI 编码代理的预索引代码知识图谱工具,通过 MCP 协议与 Claude Code、Cursor、Codex CLI、OpenCode 及 Her
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
- Faker与知名女团成员约会 网友:感觉不如翡翠回响
- 雷克沙1TB高速固态U盘首发1119元:USB 3.2-A/C双接口
- AutoGLM:你的手机AI管家,一句话搞定全场景任务!
- 吴磊成为华为运动健康全球代言人!华为Watch GT 5系列明天发布
- 《黑神话:悟空》排不进前5 全球销量最快破1000万游戏盘点
- 《英雄联盟手游》亚索新皮肤上线:峡谷吹奏周杰伦《兰亭序》
- 今日金价六福珠宝黄金价格2024年2月15日
- 红旗HS3正式上市:14.58万元起
- 媒体:蔡徐坤事件不能总靠爆料来挖
- 京东白条是什么意思
- JKF女郎牛奶妹又爆性爱片外流 肚脐刺青被认出竟是她
- Celsius破产,加密货币投资者向法官求助:拿不回钱就自杀
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接







