要闻
您现在的位置:首页 > 要闻 > Amazon Polly的Brand Voice利用AI来生成自定义发言人
  • 营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    发布时间:2024/01/30

    过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    发布时间:2022/09/25

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居行业首...

  • 2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    发布时间:2022/07/25

    2022年7月15日“九阙央座,盛赋天坛”《国脉典藏豪宅样本》发布会现场,北京房协秘书长/高品质住宅综合测评中心创始人陈志先生、中国建筑北京设计研究院原副院长/总建筑师董少宇先生、攸克地产/豪宅一号出品人殷苏峰...

  • 杰尼亚集团将成为纽约证券交易所上市公司

    杰尼亚集团将成为纽约证券交易所上市公司

    发布时间:2021/07/20

      2021年7月19日,意大利米兰——享誉全球的意大利奢侈品企业杰尼亚集团(下简称“杰尼亚”“该集团”或者“该公司”)与意威基金Investindustrial七期基金旗下的特殊目的收购公司InvestindustrialAcquisitionCorp.(...

  • 浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    发布时间:2020/04/08

    本文来源“腾讯网”。 划重点:1.两家中国广告公司向我们提供了爱奇艺(IQ.US)后端系统的数据,这些数据显示,从2019年9月开始,爱奇艺的实际移动DAU比该公司在2019年10月宣称的1.75亿平均移动DAU低了60.3%。2.大约3...

  • 华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    发布时间:2020/04/08

    本文来自“腾讯证券”。 在券商杰富瑞(Jefferies)将特斯拉评级从“持有”上调到“买入”后,特斯拉(TSLA.US)在周一收盘上涨逾7.5%。上周五,特斯拉也因公司第一季度业绩强劲而迎来上涨。数据显示,该公司第一季度共...

  • 不满足于流媒体业务,亚马逊也要开始做游戏了

    不满足于流媒体业务,亚马逊也要开始做游戏了

    发布时间:2020/04/08

    本文来源“36氪”。为了在统治数字娱乐的战役中开辟新战线,Amazon(AMZN.US)正在投入数亿美元以成为视频游戏的领先制作商和发行商。由于卫生事件的影响数度推迟之后,这家互联网巨头表示,打算在5月发布其首款原创...

  • 刘强东“熔断”,徐雷成为京东的新“保险丝”

    刘强东“熔断”,徐雷成为京东的新“保险丝”

    发布时间:2020/04/08

    本文来自“盒饭财经”。公共卫生事件笼罩世界,全球经济遭遇重创,金融市场难以幸免,“熔断”一词频繁走入人们视野中。 作为在美股上市的企业,京东(JD.US)最近的日子也不太好过。瑞幸造假事件曝出后,京东“二号人...

Amazon Polly的Brand Voice利用AI来生成自定义发言人

发布时间:2020/02/06 要闻 浏览次数:659

 
如果亚马逊能做到这一点,公司将很快大量利用亚马逊网络服务(AWS)来创建适合其品牌的声音。西雅图科技巨人今天在亚马逊的云服务Amazon Polly中推出了Brand Voice,这是一项完全托管的服务,该服务将文本转换为逼真的语音,将客户与Amazon工程师配对以构建AI生成的代表特定角色的语音。
正如Amazon语音转语音总监Rafal Kuklinski和Amazon Polly高级产品经理Ankit Dhawan在博客文章中解释的那样,Brand Voice允许组织通过将独特的语音身份融入其产品和服务中来区分其品牌。他们写道:“这为以[公司]和[品牌]认同的…演讲风格创造自定义声音提供了广泛的机会。”
亚马逊表示,它与加拿大肯德基(KFC)合作,在肯德基(KFC)最新的Amazon Alexa应用中用美国南部英语口音表达了该连锁店的品牌大使-桑德斯上校(Colonel Sanders)的声音。另外,它还为澳大利亚国民银行(National Australia Bank)设计了澳大利亚英语语音服务,该银行作为将国民银行(NAB)联络中心迁移到亚马逊的全渠道云联络中心产品Amazon Connect的一部分而启动的。
使用向上/向下箭头键增加或减少音量。
去年年底,亚马逊在一份研究论文(“数据减少对序列到序列神经TTS的影响”)中详细介绍了其在人工智能生成的语音方面的工作,研究人员在其中描述了一种系统,该系统可以学会从新的语音风格开始学习。需要几个小时的培训-与之相比,配音演员要花几十个小时才能以目标风格阅读。
亚马逊的AI模型由两个部分组成。第一个是生成性神经网络,它将音素序列转换为声谱图序列,或随时间变化的声音频谱频谱的视觉表示。第二个是将这些频谱图转换为连续音频信号的声码器。
最终结果?一种AI模型训练方法,该方法将大量中性风格的语音数据与仅几个小时的所需样式的补充数据相结合,以及一种能够区分语音元素的AI系统,该语音元素既独立于讲话风格又独特于此样式。亚马逊在内部使用它来为Alexa产生新的声音,以及在Amazon Polly中使用多种语言面向开发人员的声音。
这种技术具有明显的商业意义。品牌声音(例如由女演员和喜剧演员斯蒂芬妮·考特尼(Stephanie Courtney)扮演的Progressive的Flo)通常负责录制电话树以进行交互式语音响应(IVR)系统或为公司培训视频提供电子学习脚本。合成可以通过减少辅助录制和接听(录制会议以解决错误,更改或画外音脚本中的添加内容)的方式来提高演员的工作效率,同时使他们腾出时间从事创作工作,并使他们能够收集残差。
借助Brand Voice及其其他神经文本语音转换服务,亚马逊实际上与Google脱颖而出,谷歌最近在其Cloud Text-to-Speech服务中推出了31种新的AI合成WaveNet语音和24种新的标准语音(带来了WaveNet声音总数达到57个)。它在微软中有另一个竞争对手,该公司通过其Azure语音服务API提供三种AI生成的预览语音和75种标准语音。
亚马逊的品牌语音还与Voicery等初创公司提供的产品竞争,后者提供定制的数字语音,听起来像人一样。文字转语音技术创业公司iSpeech拥有可比的语音克隆工具,Modulate,Respeecher,Resemble AI,Descript和印度班加罗尔的DeepSync也是如此。