开源AI语音模型实现90分钟四人中文对话生成
8 月 27 日消息,科技媒体 marktechpost 于 8 月 25 日发布博文,报道称微软发布开源文本转语音(TTS)模型 VibeVoice-1.5B,可一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,并支持跨语言及歌声合成。 在架构方面,VibeVoice...
8 月 27 日消息,科技媒体 marktechpost 于 8 月 25 日发布博文,报道称微软发布开源文本转语音(TTS)模型 VibeVoice-1.5B,可一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,并支持跨语言及歌声合成。 在架构方面,VibeVoice...
网易有道开源Confucius3-Math数学模型,专为教育场景设计,支持消费级GPU运行,性能超越通用大模型,训练成本低至2.6万美元,推理效率提升15倍,推动AI教育普及。
小米推出新一代AI眼镜,搭载骁龙AR1+BES2700H双芯方案,聚焦AI摄影与实用功能,定位全球市场主流需求,挑战Meta Ray-ban产品。
饿了么AI助手小饿通过语音交互、主动提醒及订单分析等功能,全面覆盖配送场景,提升骑手操作效率,降低违规风险,助力优化接单策略。
研究显示用户在AI互动中常出现矛盾行为,超70%曾对聊天机器人爆粗口,但75%仍表示满意。尽管存在负面情绪宣泄,多数用户保持礼貌习惯,同时仍有30%更倾向人工客服。
三星Galaxy AI或将在第三季度对部分高级功能收费,如AI视频生成,同时计划在7月9日Galaxy Unpacked发布会中展示Z Fold 7与Z Flip 7的AI新特性,并提前预告收费策...
微软在Windows 11中引入Mu语言模型,通过本地小模型提升系统搜索效率,支持多词查询并优化交互体验,用户可体验AI代理功能。
Meta持续加码AI领域,探讨收购Runway AI并挖角OpenAI等团队,同时推进智能眼镜、视频编辑等AI应用,展现对通用人工智能的布局野心。
OpenAI因商标侵权被iyO起诉,指控其明知品牌相似仍推出io项目,引发法律纠纷及市场竞争争议。
xAI正开发支持表格的高级文件编辑器,整合AI辅助功能以提升生产力工具竞争力,挑战OpenAI及谷歌微软等巨头。
美国加州法院允许使用受版权保护作品训练AI模型,引发创意产业担忧。裁决支持Anthropic公司使用盗版数据,导致艺术家、作家等权益受损,AI模型可能无偿利用创作者成果,加剧行业争议。
ElevenLabs推出全新移动应用,支持文本转语音功能,用户可随时生成音频片段。新增情感控制模型,并计划增加语音转文本与对话式AI工具,拓展消费级应用布局。
Anthropic计划为Claude添加记忆功能,通过记住过往对话提升交流准确性,增强与ChatGPT的竞争力。该功能已现社交媒体线索,或将重塑AI对话体验。