gate.io交易平台

AI趋势周报第205期:语音版DALL-E!微软文字转语音AI给3秒样本就能准确生成

微软

重点新闻(1230~0105)

微软     VALL-E     文字转语音  

语音版DALL-E!微软文字转语音AI给3秒样本就能准确生成

微软近日发表一套文字转语音模型VALL-E,可根据文字输入和3秒的语音样本,来合成、产出目标语音,就像是OpenAI的文字转图片模型DALL-E一样。微软表示,他们用现成神经音档编解码模型中的离散码,来训练VALL-E这套神经编解码器语言模型,把文字转语音视为条件式语言建模任务,而不是像一般研究,视为连续性的讯号回归任务。

在预训练阶段,团队将文字转语音的训练资料,扩充到6万小时的英语语音,是现有系统的几百倍。VALL-E的工作流程是音素→离散码→波形,先根据文字输入和3秒语音提示(也就是想听到的目标声音),来产出与文字和目标声音相应的离散音档编解码。

微软测试发现,VALL-E在语音自然度和相似度部分,表现比现有SOTA文字转语音模型要好,而且还能保有语音提示的情绪与声音环境。团队指出,VALL-E可直接用於各种语音合成应用,如零样本文字转语音、语音编辑,以及搭配GPT-3等生成式AI模型,来生成更多内容。(详全文)

  大型模型     BigScience     PETALS  

在家也能跑千亿参数模型!BigScience开源PETALS分散式AI专案

对语言模型来说,参数越多、模型表现越好,开发者也只需微调大型预训练模型,就能得到不错的预测结果。不过,BLOOM、PaLM、GPT等这类大型语言模型,即便开源,还是会耗费大量运算资源,虽然目前有2种方法来解决该问题,如RAM卸载和托管API,但前者对交互推论来说太慢,後者则不够灵活。

於是,由世界各地研究员组成的开源研究专案BigScience,日前开发一套系统PETALS,可在受信任的的条件下,集各使用者之力,来共同微调、推论千亿参数的大模型。也就是说,每个使用者只需要载入一小部分的模型,就能和其他使用者一起协作,来共同执行模型推论和微调,就像是BT原理一样。

团队测试发现,PETALS比在单一系统的RAM卸载方法,还要快上许多倍,在消费型GPU上推论1,760亿参数的BLOOM模型,完成1个token所需时间近1秒。透过平行推论,每秒则能完成数百个token。而且,有别於大多数的推论API,PETALS还能显示模型隐藏状态,让使用者可用有效的微调方法,来训练、分享客制模型的外挂。不过,在PETALS初始阶段,使用者可能因安全、隐私考量,协作进展可能较慢,因此BigScience推出BLOOM点数,来奖励贡献GPU资源的使用者。(详全文)

  百度研究院     大模型     产业化  

百度研究院预测2023年:大模型将产业化

百度研究院日前发布科技趋势预测,直言大型模型在2023年将产业化发展,用於更广泛的产业中。百度研究院指出,现今的AI不断朝跨任务、跨模态(资料类型)发展,且随着底层大模型技术的成熟,以及为特定产业发展的AI基础建设,这种产业型的大模型,已渐渐在航太、金融、能源等领域应用,形成「AI+产业」的发展结构。百度认为,大模型产业化将催生产业大模型生态,实现普惠AI。

此外,百度研究院也预测,2023年的新型AI基础设施需求将增长、更多产业讲过应用AI机器人、AI将进入更多科学领域,以及随着云原生技术的成熟,将催生更多量子软硬体合一的解决方案。此外,可解释AI技术和科技永续发展,也在百度研究院预测的科技趋势中。(详全文)

  Nvidia    机器人训练       元宇宙  

让机器人更灵活!Nvidia更新模拟训练平台功能

Nvidia更新机器人模拟和训练平台Isaac Sim,使用者可从云端存取Isaac Sim、使用新AI功能来加速机器人训练了。Isaac Sim建立在元宇宙平台Nvidia Omniverse上,使用者可在各种操作条件下模拟真实环境,建置和测试虚拟机器人,来加速物流、制造和零售等产业的自动化应用。

Isaac Sim新功能有人物模拟功能,能在仓库和制造设施中增添人物角色,还能让人物执行不同动作,如推手推车。这个功能可让开发者观察,人机互动设计是否顺畅,也能让机器人学习避障和潜在意外。另一个新功能是即时呈现感测器资料,并能用光线追踪技术模拟光达,在各种照明或反射材质条件下,获得更准确的感测器资料,来让机器人模拟更贴近真实世界环境。Isaac Sim其他更新还包括模拟3D物件库、强化学习工具Isaac Gym,以及协作机器人程式开发工具Isaac Cortex等。

 

  OpenAI     Bing     ChatGPT  

微软计画用ChatGPT强化Bing搜寻功能

根据外媒The Information报导,微软打算用ChatGPT来强化自家搜寻引擎Bing、提供新搜寻功能,预计在3月底推出。此外,微软还可能用ChatGPT来分析用户在研究的主题,好提供进一步的搜寻建议。

微软这一举动,代表使用OpenAI技术的微软产品数量持续增加。微软在2019年10月与OpenAI展开合作,投资10亿美元来发展通用AI。2020年,微软购买GPT-3独家授权,在自家产品中整合GPT-3。2021年,微软就在Power Apps中嵌入GPT-3,使缺乏程式开发知识的人,也能利用自然语言开发程式。去年,微软整合OpenAI DALL-E 2,发布图像设计应用程式,能根据文字提示生成影像。(详全文)

  元宇宙     自然语言     3D  

Nvidia新添元宇宙平台协作功能和自然语言搜寻服务

Nvidia更新元宇宙平台Omniverse Enterprise,支援最新GPU技术强化效能和可用性,同时增添新功能,达到即时又精确的模拟品质。此外,Nvidia也更新Omniverse平台核心,让使用者快速连接工具、共享虚拟空间中协作。

Omniverse Enterprise是个让企业用来开发、营运元宇宙应用程式的平台,新加入的Omniverse连接器,可连接不同3D应用程式,实现无缝工作流程,另也支援如Adobe Substance 3D Painter、Autodesk Alias等软体。此外,Nvidia也正式推出AI服务Omniverse DeepSearch,使用者可用自然语言或2D参考图,直觉搜寻大型且未标记的3D资料库。在平台核心更新部分,则在用来建置扩充应用程式和微服务的Omniverse Kit SDK中,加入新模板和开发者工作流程,简化开发作业。(详全文)

  Google     文字转图像     Transformer  

速度更快、画面更细致!Google发表新文字转图像模型Muse

Google日前发表一款文字转图像模型Muse,以Transformer架构为基础,号称产出速度更快、生成画面更细致,比扩散模型和自回归模型的表现还要好。进一步来说,Muse是以遮罩任务训练而成,也就是先在大型语言预训练模型中抽出文字嵌入,再训练Muse来预测随机被遮住的图片Token。

与DALLE-2这类像素空间的模型相比,Muse因为用了离散token,只需少量采样迭代,因此更有效率。与Parti这类自回归模型相比,Muse因为用了平行解码,因此也更有效率。Google表示,由於采用预训练大型语言模型,Muse的语言理解能力,以至於从文字转换为高保真图片的能力都更细致,而且对视觉概念的理解力也更强。

团队也进行测试,9亿参数版本的Muse经CC3M资料集测试,达SOTA水准,且用来测量生成图片和真实图片相似度的FID分数,达6.06分(越低越相近)。而30亿参数版本的Muse,在零样本COCO资料集测试评估中,得到7.88的FID分数。此外,Muse不必微调模型,就能直接用於图片编辑应用程式,像是图片修复、图片外扩/脑补、编辑等。(详全文)

图片来源/微软、BigScience、Nvidia

  AI近期新闻 

1. Apple Books新添AI语音功能,电子书可转为有声读物了

2. 前特斯拉AI长Andrej Karpathy开源nanoGPT可优化GPT模型开发

资料来源:iThome整理,2023年1月

gateio在中国合法吗

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x