AI趋势周报第205期：语音版DALL-E！微软文字转语音AI给3秒样本就能准确生成

2023 年 1 月 7 日 by gateio在中国合法吗

微软

重点新闻(1230～0105)

微软 VALL-E 文字转语音

语音版DALL-E！微软文字转语音AI给3秒样本就能准确生成

微软近日发表一套文字转语音模型VALL-E，可根据文字输入和3秒的语音样本，来合成、产出目标语音，就像是OpenAI的文字转图片模型DALL-E一样。微软表示，他们用现成神经音档编解码模型中的离散码，来训练VALL-E这套神经编解码器语言模型，把文字转语音视为条件式语言建模任务，而不是像一般研究，视为连续性的讯号回归任务。

在预训练阶段，团队将文字转语音的训练资料，扩充到6万小时的英语语音，是现有系统的几百倍。VALL-E的工作流程是音素→离散码→波形，先根据文字输入和3秒语音提示（也就是想听到的目标声音），来产出与文字和目标声音相应的离散音档编解码。

微软测试发现，VALL-E在语音自然度和相似度部分，表现比现有SOTA文字转语音模型要好，而且还能保有语音提示的情绪与声音环境。团队指出，VALL-E可直接用於各种语音合成应用，如零样本文字转语音、语音编辑，以及搭配GPT-3等生成式AI模型，来生成更多内容。（详全文）

大型模型 BigScience PETALS

在家也能跑千亿参数模型！BigScience开源PETALS分散式AI专案

对语言模型来说，参数越多、模型表现越好，开发者也只需微调大型预训练模型，就能得到不错的预测结果。不过，BLOOM、PaLM、GPT等这类大型语言模型，即便开源，还是会耗费大量运算资源，虽然目前有2种方法来解决该问题，如RAM卸载和托管API，但前者对交互推论来说太慢，後者则不够灵活。

於是，由世界各地研究员组成的开源研究专案BigScience，日前开发一套系统PETALS，可在受信任的的条件下，集各使用者之力，来共同微调、推论千亿参数的大模型。也就是说，每个使用者只需要载入一小部分的模型，就能和其他使用者一起协作，来共同执行模型推论和微调，就像是BT原理一样。

团队测试发现，PETALS比在单一系统的RAM卸载方法，还要快上许多倍，在消费型GPU上推论1,760亿参数的BLOOM模型，完成1个token所需时间近1秒。透过平行推论，每秒则能完成数百个token。而且，有别於大多数的推论API，PETALS还能显示模型隐藏状态，让使用者可用有效的微调方法，来训练、分享客制模型的外挂。不过，在PETALS初始阶段，使用者可能因安全、隐私考量，协作进展可能较慢，因此BigScience推出BLOOM点数，来奖励贡献GPU资源的使用者。（详全文）

百度研究院大模型产业化

百度研究院预测2023年：大模型将产业化

百度研究院日前发布科技趋势预测，直言大型模型在2023年将产业化发展，用於更广泛的产业中。百度研究院指出，现今的AI不断朝跨任务、跨模态（资料类型）发展，且随着底层大模型技术的成熟，以及为特定产业发展的AI基础建设，这种产业型的大模型，已渐渐在航太、金融、能源等领域应用，形成「AI+产业」的发展结构。百度认为，大模型产业化将催生产业大模型生态，实现普惠AI。

此外，百度研究院也预测，2023年的新型AI基础设施需求将增长、更多产业讲过应用AI机器人、AI将进入更多科学领域，以及随着云原生技术的成熟，将催生更多量子软硬体合一的解决方案。此外，可解释AI技术和科技永续发展，也在百度研究院预测的科技趋势中。（详全文）

Nvidia 机器人训练元宇宙

让机器人更灵活！Nvidia更新模拟训练平台功能

Nvidia更新机器人模拟和训练平台Isaac Sim，使用者可从云端存取Isaac Sim、使用新AI功能来加速机器人训练了。Isaac Sim建立在元宇宙平台Nvidia Omniverse上，使用者可在各种操作条件下模拟真实环境，建置和测试虚拟机器人，来加速物流、制造和零售等产业的自动化应用。

Isaac Sim新功能有人物模拟功能，能在仓库和制造设施中增添人物角色，还能让人物执行不同动作，如推手推车。这个功能可让开发者观察，人机互动设计是否顺畅，也能让机器人学习避障和潜在意外。另一个新功能是即时呈现感测器资料，并能用光线追踪技术模拟光达，在各种照明或反射材质条件下，获得更准确的感测器资料，来让机器人模拟更贴近真实世界环境。Isaac Sim其他更新还包括模拟3D物件库、强化学习工具Isaac Gym，以及协作机器人程式开发工具Isaac Cortex等。

OpenAI Bing ChatGPT

微软计画用ChatGPT强化Bing搜寻功能

根据外媒The Information报导，微软打算用ChatGPT来强化自家搜寻引擎Bing、提供新搜寻功能，预计在3月底推出。此外，微软还可能用ChatGPT来分析用户在研究的主题，好提供进一步的搜寻建议。

微软这一举动，代表使用OpenAI技术的微软产品数量持续增加。微软在2019年10月与OpenAI展开合作，投资10亿美元来发展通用AI。2020年，微软购买GPT-3独家授权，在自家产品中整合GPT-3。2021年，微软就在Power Apps中嵌入GPT-3，使缺乏程式开发知识的人，也能利用自然语言开发程式。去年，微软整合OpenAI DALL-E 2，发布图像设计应用程式，能根据文字提示生成影像。（详全文）

元宇宙自然语言 3D

Nvidia新添元宇宙平台协作功能和自然语言搜寻服务

Nvidia更新元宇宙平台Omniverse Enterprise，支援最新GPU技术强化效能和可用性，同时增添新功能，达到即时又精确的模拟品质。此外，Nvidia也更新Omniverse平台核心，让使用者快速连接工具、共享虚拟空间中协作。

Omniverse Enterprise是个让企业用来开发、营运元宇宙应用程式的平台，新加入的Omniverse连接器，可连接不同3D应用程式，实现无缝工作流程，另也支援如Adobe Substance 3D Painter、Autodesk Alias等软体。此外，Nvidia也正式推出AI服务Omniverse DeepSearch，使用者可用自然语言或2D参考图，直觉搜寻大型且未标记的3D资料库。在平台核心更新部分，则在用来建置扩充应用程式和微服务的Omniverse Kit SDK中，加入新模板和开发者工作流程，简化开发作业。（详全文）

Google 文字转图像 Transformer

速度更快、画面更细致！Google发表新文字转图像模型Muse

Google日前发表一款文字转图像模型Muse，以Transformer架构为基础，号称产出速度更快、生成画面更细致，比扩散模型和自回归模型的表现还要好。进一步来说，Muse是以遮罩任务训练而成，也就是先在大型语言预训练模型中抽出文字嵌入，再训练Muse来预测随机被遮住的图片Token。

与DALLE-2这类像素空间的模型相比，Muse因为用了离散token，只需少量采样迭代，因此更有效率。与Parti这类自回归模型相比，Muse因为用了平行解码，因此也更有效率。Google表示，由於采用预训练大型语言模型，Muse的语言理解能力，以至於从文字转换为高保真图片的能力都更细致，而且对视觉概念的理解力也更强。

团队也进行测试，9亿参数版本的Muse经CC3M资料集测试，达SOTA水准，且用来测量生成图片和真实图片相似度的FID分数，达6.06分（越低越相近）。而30亿参数版本的Muse，在零样本COCO资料集测试评估中，得到7.88的FID分数。此外，Muse不必微调模型，就能直接用於图片编辑应用程式，像是图片修复、图片外扩/脑补、编辑等。（详全文）

图片来源／微软、BigScience、Nvidia

AI近期新闻

1. Apple Books新添AI语音功能，电子书可转为有声读物了

2. 前特斯拉AI长Andrej Karpathy开源nanoGPT可优化GPT模型开发

资料来源：iThome整理，2023年1月

AI趋势周报第205期：语音版DALL-E！微软文字转语音AI给3秒样本就能准确生成

重点新闻(1230～0105)

You may like

未来 Copilot AI 将可在电脑上直接运行，但算力达标的处理器至少得等到年中

人工智慧科技基金会：超过半数企业已使用生成式 AI，且企业 AI 化指数差异逐步加大