开源AI语音模型实现90分钟四人中文对话生成
8 月 27 日消息,科技媒体 marktechpost 于 8 月 25 日发布博文,报道称微软发布开源文本转语音(TTS)模型 VibeVoice-1.5B,可一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,并支持跨语言及歌声合成。 在架构方面,VibeVoice...
8 月 27 日消息,科技媒体 marktechpost 于 8 月 25 日发布博文,报道称微软发布开源文本转语音(TTS)模型 VibeVoice-1.5B,可一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,并支持跨语言及歌声合成。 在架构方面,VibeVoice...
美国法官认定Meta使用书籍训练AI属合理使用,强调需结合具体案件分析市场影响,指出原告未能证明版权损害,但裁决不构成全面胜诉。
谷歌DeepMind推出AlphaGenome模型,通过AI技术精准预测DNA序列变异影响,支持长序列分析与多种模式预测,为疾病研究和合成生物学提供新工具,推动基因组学领域发展。
山西临汾医院启动1569万元智慧医疗项目,涵盖智能导诊、病历生成等六大模块,展现AI技术在医疗领域的深度应用,凸显医院数字化转型趋势。
西门子高管指出AI将深度融入工业领域,DeepSeek凭借高效灵活成为关键选择,推动人机协同与智能制造升级。
阿里巴巴达摩院联合浙江省肿瘤医院研发的DAMO GRAPE AI模型,通过平扫CT影像显著提升胃癌早期检出率,为癌症防治提供全新解决方案,有望实现无症状胃癌的早期发现。
法院判定Anthropic通过拆解图书扫描训练AI模型属于合理使用,但盗版行为削弱其合法性,凸显AI训练数据获取的法律争议。
科技公司应将人工智能带来的生产力提升转化为劳动者更多休息时间,而非仅惠及高管。试点案例显示,缩短工作时长可提升效率,同时保障员工福利,呼吁技术惠及所有人。
谷歌推出Gemini CLI工具,集成AI问答与代码生成功能,开发者可便捷使用,支持大模型上下文窗口及搜索,预览版提供免费配额,应用涵盖编程、内容生成等领域。
Solos公司推出新款AI智能眼镜AirGo A5和V2,支持实时直播、AI模型切换及可更换电池等创新功能,满足多样化需求。
Anthropic通过"模型福利"研究探索AI意识可能性,强调伦理设计与安全对齐,分析AI是否具备体验与情感的前沿议题。
WebSSL模型通过纯图像训练在无语言监督下展现卓越性能,尤其在OCR与图表任务中提升显著。实验表明,参数扩展使模型接近对数线性增长,部分场景超越MetaCLIP。集成Hugging Face库,...
中国AI公司完成7500万美元融资,估值达5亿美元,加速布局美日中东市场。Manus AI智能体在简历筛选、旅行规划等任务表现突出,推出订阅服务拓展商业场景。