一张图片+音频生成电影级数字人?开源模型如何颠覆创作效率
8 月 27 日消息,昨日晚间,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。 据介绍,该模型单次生成的视频时长可达分钟级,大幅提升数字人直播、影视制作、AI 教育等...
8 月 27 日消息,昨日晚间,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。 据介绍,该模型单次生成的视频时长可达分钟级,大幅提升数字人直播、影视制作、AI 教育等...
WebSSL模型通过纯图像训练在无语言监督下展现卓越性能,尤其在OCR与图表任务中提升显著。实验表明,参数扩展使模型接近对数线性增长,部分场景超越MetaCLIP。集成Hugging Face库,...
Adobe推出最新AI图像生成模型及协作工具,优化设计流程并支持多平台模型集成,显著提升创意创作效率与细节表现。
谷歌Gemini聊天机器人即将登陆智能手表、Android Auto等设备,CEO确认将升级Google Assistant并拓展至更多场景,提升AI交互体验。
澳大利亚广播电台隐秘使用AI主持人引发争议,未明确告知听众,行业呼吁透明度与信任重建。
谷歌DeepMind推出升级版Music AI Sandbox,搭载Lyria 2模型支持高保真音频生成与实时创作,新增文本驱动音乐创作、音频扩展及风格调整功能,助力音乐人突破创作边界。
Space Llama通过离线运行和边缘计算,显著提升空间站任务效率,支持多模态AI处理,确保数据安全与实时响应。
OpenAI新推轻量版Deep Research功能,采用o4-mini模型平衡性能与成本。新版准确率低于标准版但优于多数竞品,会员用户享不同使用额度,免费用户仅限5次查询,每月额度30天重置。
文章揭露部分企业利用AI技术伪造非遗传承人形象进行虚假宣传,呼吁消费者警惕"非遗认证"产品,相关部门需加强电商平台监管,防范不法分子侵害公众权益。
字节跳动通过Top Seed计划招募30位大模型领域博士,覆盖多模态、语言模型等方向。项目注重研究潜力,提供自由探索空间与落地场景,推动AI技术创新。
中国人工智能专利全球领先,2024年创新指数升至第11位,百强科技集群达26个,专利数量占比超60%。
阶跃星辰开源图像编辑大模型Step1X-Edit,19B参数量实现语义精准解析与身份一致性保持,支持11类高频编辑任务,性能达到开源SOTA水平。
美的加速推进人形机器人在制造业和商业场景落地,聚焦技术迭代与场景应用,产业化进程面临多重挑战。