DeepSeek正式推出了DeepSeek-R1模型,与此同时,模型权重也实现同步开源。值得一提的是,DeepSeek-R1在模型训练过程中,于后训练阶段大规模应用了强化学习技术。即便在仅有少量标注数据的情形下,该技术的应用依旧使模型的推理能力得到了极大程度的提升 。DeepSeek 蒸馏模型是通过模型蒸馏技术从更大的 DeepSeek-R1 模型中提取知识并转移到更小的模型中,以实现更高的计算效率和更低的推理成本,同时保留强大的推理能力。
Deepseek版本:
DeepSeek-R1 蒸馏模型包括多个不同参数规模的版本:
DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Llama-70B
DeepSeek-R1-Distill-Llama-671B
比如 1.5b、671b,后面的数字代表模型的参数量,而 b 则是指 billion 的意思,也就是十亿,网上说的 满血版,就是指的 671b,性能最强,也就是官网部署的版本。接下来,我们主要使用DeepSeek-R1-Distill-Llama-70B蒸馏模型,使用OpenRouter
OpenRouter
OpenRouter是一个统一的API服务平台,旨在将各种大型语言模型和服务集成到一个统一的接口中。它允许用户通过简单的配置和调用,访问多个预训练的大模型,而无需自己部署和维护这些模型。
功能和特点
1、统一接口:提供标准化的 API,简化了模型的集成和部署过程。
2、多模型支持:支持多种预训练模型,如 OpenAI 的 GPT-4、Claude、Gemini 等
。
3、无需 GPU 服务器:通过调用预训练模型的 API,用户无需自建 GPU 服务器。
4、成本优化:提供透明的定价机制,帮助用户在性能和成本之间找到最佳平衡点。
5、易于集成:便于与现有系统集成,适合各种应用场景。
6、免费模型:提供部分免费开源模型,用户可以按需选择。
7、API Key 管理:用户可以创建和管理自己的 API Key,为每个 Key 设置使用额度。
限制
费用:除了标识为free的免费模型外,其他模型的调用均会产生费用。
支付方式:目前不支持微信、支付宝等支付方式。
APIKey限制:APIKey创建后需妥善保管,后续无法查看。
注册
官网地址: https://openrouter.ai
1、点击右上角的 Sign in,选择自己的谷歌账号或者Github账号等方式登录使用。
2、点击左上角搜索框,下拉列表就会显示模型列表。注意带free的,就是可以免费使用的,其他的是要支付美元使用的。
3、点击API,创建API
4、然后输入名字 deepseek,名字可以随意。注意credit limit不要填写,表示无限制使用。
5、创建之后,会生成一个key,注意自己保存一下。注意:这个key只会显示一次,再次进入就看不到了。
6、点击Settings,设置默认模型为 DeepSeek: R1 Distill Llama 70B(free)
Cherry Studio
Cherry Studio作为一款功能极为强大的多模型AI客户端,具备出色的跨平台兼容性,能够无缝支持Windows、macOS以及Linux等多种主流操作系统。它集成了多种主流的大型语言模型(LLMs),如 OpenAI、Gemini 等,以及本地模型运行功能,用户可以根据需求自由切换云端和本地模型。
安装使用
下载地址:https://cherry-ai.com/download
1、点击设置按钮,找到OpenRouter,输入API密钥
2、输入完密钥以后,下拉,点击添加模型, 输入deepseek/deepseek-r1-distill-llama-70b:free
3、添加完成之后,这里会显示
4、然后点击聊天,选择模型deepseek/deepseek-r1-distill-llama-70b:free
当前共有 0 条评论