商业
您现在的位置:首页 > 商业 > 微软的AI只用200个训练样本生成逼真的语音
  • 营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    发布时间:2024/01/30

    过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    发布时间:2022/09/25

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居行业首...

  • 2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    发布时间:2022/07/25

    2022年7月15日“九阙央座,盛赋天坛”《国脉典藏豪宅样本》发布会现场,北京房协秘书长/高品质住宅综合测评中心创始人陈志先生、中国建筑北京设计研究院原副院长/总建筑师董少宇先生、攸克地产/豪宅一号出品人殷苏峰...

  • 杰尼亚集团将成为纽约证券交易所上市公司

    杰尼亚集团将成为纽约证券交易所上市公司

    发布时间:2021/07/20

      2021年7月19日,意大利米兰——享誉全球的意大利奢侈品企业杰尼亚集团(下简称“杰尼亚”“该集团”或者“该公司”)与意威基金Investindustrial七期基金旗下的特殊目的收购公司InvestindustrialAcquisitionCorp.(...

  • 浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    发布时间:2020/04/08

    本文来源“腾讯网”。 划重点:1.两家中国广告公司向我们提供了爱奇艺(IQ.US)后端系统的数据,这些数据显示,从2019年9月开始,爱奇艺的实际移动DAU比该公司在2019年10月宣称的1.75亿平均移动DAU低了60.3%。2.大约3...

  • 华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    发布时间:2020/04/08

    本文来自“腾讯证券”。 在券商杰富瑞(Jefferies)将特斯拉评级从“持有”上调到“买入”后,特斯拉(TSLA.US)在周一收盘上涨逾7.5%。上周五,特斯拉也因公司第一季度业绩强劲而迎来上涨。数据显示,该公司第一季度共...

  • 不满足于流媒体业务,亚马逊也要开始做游戏了

    不满足于流媒体业务,亚马逊也要开始做游戏了

    发布时间:2020/04/08

    本文来源“36氪”。为了在统治数字娱乐的战役中开辟新战线,Amazon(AMZN.US)正在投入数亿美元以成为视频游戏的领先制作商和发行商。由于卫生事件的影响数度推迟之后,这家互联网巨头表示,打算在5月发布其首款原创...

  • 刘强东“熔断”,徐雷成为京东的新“保险丝”

    刘强东“熔断”,徐雷成为京东的新“保险丝”

    发布时间:2020/04/08

    本文来自“盒饭财经”。公共卫生事件笼罩世界,全球经济遭遇重创,金融市场难以幸免,“熔断”一词频繁走入人们视野中。 作为在美股上市的企业,京东(JD.US)最近的日子也不太好过。瑞幸造假事件曝出后,京东“二号人...

微软的AI只用200个训练样本生成逼真的语音

发布时间:2019/05/24 商业 浏览次数:1838

 
目前,现代的文本到语音转换算法具有令人难以置信的能力,你不需要进一步寻找证据,而不是谷歌最近开源的SpecAugment或Translatotron–后者可以直接将一个人的声音翻译成另一种语言,同时保留语气和男高音。但总有改进的余地。
为此,微软的研究人员最近在一篇论文(“几乎无监督的文本到语音和自动语音识别”)中详细介绍了一种利用无监督学习的人工智能系统 – 一种机器学习的分支,从未标记,未分类和未分类的测试数据中收集知识 – 实现自动语音识别的99.84%单词可懂度准确率和11.7%PER。更令人印象深刻的是,该模型仅需要200个音频剪辑和相应的转录。
关键是变形金刚,这是一种新型的神经结构,在2017年的一篇论文中引入,由Google的AI研究部门Google Brain的科学家共同撰写。与所有深度神经网络一样,变形金刚包含排列在互连层中的神经元(数学函数松散地模仿生物神经元),这些层从输入数据传输“信号”并缓慢调整每个连接的突触强度 – 权重。 (这就是模型如何提取特征并学习如何进行预测。)但是,独特的变形金刚注意:每个输出元素都连接到每个输入元素,它们之间的权重是动态计算的。
微软研究人员将Transformer组件整合到他们的AI系统设计中,可以将语音或文本作为输入或输出,他们采购了公开的LJSpeech数据集 – 其中包含13,100个英语音频片段和成绩单 – 用于训练数据。该团队随机选择上述200个剪辑来创建训练数据集,并利用去噪自动编码器组件重建损坏的语音和文本。
考虑到小型语料库,结果并非一半糟糕 – 研究人员指出,它在测试中轻松胜过三种基线算法。并且发布的几个生成的样本听起来像人类一样,保存了轻微的机器人声音。
共同作者通过在其他预训练方法的帮助下纯粹利用不成对的语音和文本数据,留给未来的工作“突破无监督学习的极限”。他们写道:“在这项工作中,我们提出了几乎无监督的文本到语音和自动语音识别方法,它只利用了少量成对的语音和文本数据以及额外的不成对数据。” “我们在实验中证明,我们设计的组件是开发语音和文本转换功能所必需的,只需很少的配对数据。”
该论文将于今年晚些时候在加利福尼亚州长滩举行的国际机器学习大会上发布,该团队计划在未来几周内发布该代码。

姓 名:
邮箱
留 言: