深度求索（DeepSeek）

AI模型

深度求索（DeepSeek）

世界领先的开源通用人工智能底层模型

链接直达手机查看

深度求索（DeepSeek），成立于2023年，专注于研究世界领先的通用人工智能底层模型与技术，挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源，深度求索团队仅用半年时间便已发布并开源多个百亿级参数大模型，如DeepSeek-LLM通用大语言模型、DeepSeek-Coder代码大模型，并在2024年1月率先开源国内首个MoE大模型（DeepSeek-MoE），各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。和 DeepSeek AI 对话，轻松接入 API

相关导航

SenseVoice

SenseVoice，一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型，enseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测，具有多语种、混合语言、音色和情感控制能力，在零样本语音生成、跨语言语音克隆和指令跟踪方面的能力表现优秀。

Moshi

Moshi 是一个多流实时语音生成 Transformer 模型，支持全双工语音对话。其主要特点是同时语音输入和输出（全双工），以及处理复杂对话场景的能力，包括重叠语音、中断和情绪表达等非语言信息。

YuE

YuE是一个全新的多模态音乐开源模型，YuE具有从歌词生成高质量音乐的能力。能够生成长达5分钟的完整音乐作品，包括人声和伴奏，支持多种语言生成，如英语、中文、日语和韩语，YuE模型适用于音乐创作、歌词生成和多语言音乐制作等领域。

MagicVideo

由字节跳动ai研究人员推出的MagicVideo-V2，在文本转视频生成领域脱颖而出。它将文本到图像模型、视频运动发生器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中。这种结构使 MagicVideo-V2 能够制作高分辨率、美观的视频，并具有出色的保真度和流畅度。它明显优于其他领先的文本到视频系统，例如 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型

相关导航

发表回复 取消回复

发表回复取消回复