深度求索DeepSeek-V3大语言模型算法2024年12月26日正式发布
DeepSeek大语言模型算法是北京深度求索人工智能基础技术研究有限公司推出的深度合成服务算法。DeepSeek大语言模型算法于2024年4月上线。
DeepSeek大语言模型系以Transformer架构为基础,自主研发的深度神经网络模型。模型基于注意力机制,通过海量语料数据进行预训练,并经过监督微调、人类反馈的强化学习等进行对齐,构建形成深度神经网络,并增加审核、过滤等安全机制,使算法模型部署后能够根据人类的指令或者提示,实现语义分析、计算推理、问答对话、篇章生成、代码编写等任务。应用于智能对话场景,服务于企业端客户,根据用户输入的文本数据,通过大语言模型生成符合用户需求的文本、代码等内容。
2024年4月,DeepSeek大语言模型算法备案通过。
2024年5月7日,发布第二代开源Mixture-of-Experts(MoE)模型——DeepSeek-V2。
2024年6月17日,发布DeepSeek-Coder-V2。
2024年12月13日,发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2。
2024年12月26日晚,AI公司深度求索(DeepSeek)正式上线全新系列模型DeepSeek-V3首个版本并同步开源。