AIX Exchange携手币安生态矩阵，揭幕“Web3版纳斯达克”

发布时间：2025/10/23

10月24日20:00，全球知名区块链媒体非小号（Feixiaohao.ai）、TalkingWeb3将携手AIXExchange和全球百大KOL举办华语区线上首秀特别直播，正式揭开“Web3版纳斯达克”的序幕。本次活动将在X、币安广场、币安Live、火...
撒钱十个亿，只做真公益！振东制药诠释现代公益新范式

发布时间：2025/06/11

如果说慈善事业是企业责任感的一个缩影。那么振东制药的慈善“侧写”便是大爱无疆。山西振东健康产业集团自太行山深处诞生，稳扎稳打、守正创新，跻身中国药企中流砥柱行列。引导旗下公益扶贫办凝聚共识、加强合作...
创客匠人联合主办第二届中国心理学应用发展大会,深耕“AI+心理学”应用

发布时间：2025/05/30

导语: 2025年5月24日,第二届中国心理学应用发展大会在杭州水博园盛大开幕。作为联合主办方,创客匠人通过“AI+心理学应用”圆桌论坛和“心理人的破局发展”工作坊两大核心活动,为3000余名参会者带来前沿的数字化解决方...
纳斯达克‖飞兔商联启航全产业链聚合生态重构行业格局

发布时间：2025/05/27

在互联网行业爆发式增长的浪潮中，贵州飞兔商联云信息技术有限公司（以下简称“飞兔商联”）以“科技+线上+线下”三位一体的合伙人创新模式，成为资本市场瞩目的焦点。作为中国互联网全产业链聚合生态的构建者，公司...

浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

发布时间：2020/04/08

本文来源“腾讯网”。划重点：1.两家中国广告公司向我们提供了爱奇艺(IQ.US)后端系统的数据，这些数据显示，从2019年9月开始，爱奇艺的实际移动DAU比该公司在2019年10月宣称的1.75亿平均移动DAU低了60.3%。2.大约3...
华尔街大佬巴鲁克：特斯拉(TSLA.US)目标股价达600美元，仍有18%上行空间

发布时间：2020/04/08

本文来自“腾讯证券”。在券商杰富瑞（Jefferies）将特斯拉评级从“持有”上调到“买入”后，特斯拉（TSLA.US）在周一收盘上涨逾7.5%。上周五，特斯拉也因公司第一季度业绩强劲而迎来上涨。数据显示，该公司第一季度共...
不满足于流媒体业务，亚马逊也要开始做游戏了

发布时间：2020/04/08

本文来源“36氪”。为了在统治数字娱乐的战役中开辟新战线，Amazon(AMZN.US)正在投入数亿美元以成为视频游戏的领先制作商和发行商。由于卫生事件的影响数度推迟之后，这家互联网巨头表示，打算在5月发布其首款原创...
刘强东“熔断”，徐雷成为京东的新“保险丝”

发布时间：2020/04/08

本文来自“盒饭财经”。公共卫生事件笼罩世界，全球经济遭遇重创，金融市场难以幸免，“熔断”一词频繁走入人们视野中。作为在美股上市的企业，京东（JD.US）最近的日子也不太好过。瑞幸造假事件曝出后，京东“二号人...

微软的AI只用200个训练样本生成逼真的语音

发布时间：2019/05/24 商业 浏览次数：2154

目前，现代的文本到语音转换算法具有令人难以置信的能力，你不需要进一步寻找证据，而不是谷歌最近开源的SpecAugment或Translatotron–后者可以直接将一个人的声音翻译成另一种语言，同时保留语气和男高音。但总有改进的余地。
为此，微软的研究人员最近在一篇论文(“几乎无监督的文本到语音和自动语音识别”)中详细介绍了一种利用无监督学习的人工智能系统 – 一种机器学习的分支，从未标记，未分类和未分类的测试数据中收集知识 – 实现自动语音识别的99.84%单词可懂度准确率和11.7%PER。更令人印象深刻的是，该模型仅需要200个音频剪辑和相应的转录。
关键是变形金刚，这是一种新型的神经结构，在2017年的一篇论文中引入，由Google的AI研究部门Google Brain的科学家共同撰写。与所有深度神经网络一样，变形金刚包含排列在互连层中的神经元(数学函数松散地模仿生物神经元)，这些层从输入数据传输“信号”并缓慢调整每个连接的突触强度 – 权重。 (这就是模型如何提取特征并学习如何进行预测。)但是，独特的变形金刚注意：每个输出元素都连接到每个输入元素，它们之间的权重是动态计算的。
微软研究人员将Transformer组件整合到他们的AI系统设计中，可以将语音或文本作为输入或输出，他们采购了公开的LJSpeech数据集 – 其中包含13,100个英语音频片段和成绩单 – 用于训练数据。该团队随机选择上述200个剪辑来创建训练数据集，并利用去噪自动编码器组件重建损坏的语音和文本。
考虑到小型语料库，结果并非一半糟糕 – 研究人员指出，它在测试中轻松胜过三种基线算法。并且发布的几个生成的样本听起来像人类一样，保存了轻微的机器人声音。
共同作者通过在其他预训练方法的帮助下纯粹利用不成对的语音和文本数据，留给未来的工作“突破无监督学习的极限”。他们写道：“在这项工作中，我们提出了几乎无监督的文本到语音和自动语音识别方法，它只利用了少量成对的语音和文本数据以及额外的不成对数据。” “我们在实验中证明，我们设计的组件是开发语音和文本转换功能所必需的，只需很少的配对数据。”
该论文将于今年晚些时候在加利福尼亚州长滩举行的国际机器学习大会上发布，该团队计划在未来几周内发布该代码。

上一篇: 枕头制造商Throwboy证明，没有任何创业梦想太过遥远

下一篇: 麻省理工学院的人工智能使自动驾驶汽车更像人类

相关推荐