开源AI语音模型实现90分钟四人中文对话生成
8 月 27 日消息,科技媒体 marktechpost 于 8 月 25 日发布博文,报道称微软发布开源文本转语音(TTS)模型 VibeVoice-1.5B,可一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,并支持跨语言及歌声合成。 在架构方面,VibeVoice...
8 月 27 日消息,科技媒体 marktechpost 于 8 月 25 日发布博文,报道称微软发布开源文本转语音(TTS)模型 VibeVoice-1.5B,可一次生成最长 90 分钟、最多 4 位不同说话者的自然语音,并支持跨语言及歌声合成。 在架构方面,VibeVoice...
OpenAI CEO Sam Altman预测2025年AI Agent将全面爆发,尤其编程领域或将主导变革。他强调语音交互与图形界面融合的创新潜力,并指出GPT-3 API作为经济型工具已助力建...
荣耀海外版新机搭载AI图像生成视频功能,可将静态图片转换为5秒动态视频,支持4K分辨率及物理现象模拟,前两月免费开放,后续需订阅Google服务。
OpenAI最新推出HealthBench医疗AI评估体系,通过真实对话与医生评分验证,o3模型性能提升28%并超越竞品,AI生成回答质量已接近依赖AI辅助的医生水平,标志医疗领域AI应用迈入新阶...
Stability AI最新音频生成模型支持手机端离线运行,凭借免版税数据集实现高效生成,仅需8秒即可完成11秒音频制作,但存在语言及音乐类型适配限制。
华中科技大学联合多机构研发的“木兰”AI大模型实现女性肿瘤全流程诊疗支持,通过多模态数据整合与专家经验融合,突破传统模型局限,推动我国肿瘤诊疗标准化与均质化发展。
ChatGPT新增GPT-4.1模型,针对编程任务进行优化,提升执行效率与精确度。新模型在稳定性及输出质量方面表现更优,性能媲美甚至超越GPT-4o,部分用户已可体验,更多权限即将开放。
研究表明,职场中使用AI助手可能引发同事对个人能力的质疑,即使成果高质量,仍会被认为投入不足。杜克大学实验显示,AI使用与负面标签关联显著,尤其在复杂任务场景下,这种认知偏差对职业发展产生潜在影响...
OpenAI最新推出的ChatGPT Record功能可实现会议录音实时转写与报告生成,或将通过悬浮层模式运行,直接挑战微软Teams Copilot的集成能力,为语音对话辅助带来新变革。
广州海关推出全国首个辐射探测机器狗,应用于港口监管,兼具巡检与检测功能,体现智能化技术在海关领域的创新突破,同步拓展至治安、消防等多领域场景。
OpenAI通过增设安全评估中心,持续公开模型在有害内容生成、越狱及幻觉等方面的测试数据,提升透明度并改进安全性,以回应行业质疑并推动整体AI伦理发展。
阿里巴巴正式开源通义万相2.1视频生成模型,提供1.3B与14B两种版本,支持文生视频、图像参考生成、视频重绘等全系列功能,满足多样创作需求。
教授使用AI制作教学材料引发学生不满,东北大学驳回退款要求。AI工具在教育中的应用边界成为热议,学生呼吁教学应保持人类主导以维护学术诚信与教育公平。