要闻
您现在的位置:首页 > 要闻 > Facebook详细介绍了wav2vec,这是一种AI算法,使用原始音频来改善语音识别
  • 营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    发布时间:2024/01/30

    过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    发布时间:2022/09/25

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居行业首...

  • 2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    发布时间:2022/07/25

    2022年7月15日“九阙央座,盛赋天坛”《国脉典藏豪宅样本》发布会现场,北京房协秘书长/高品质住宅综合测评中心创始人陈志先生、中国建筑北京设计研究院原副院长/总建筑师董少宇先生、攸克地产/豪宅一号出品人殷苏峰...

  • 杰尼亚集团将成为纽约证券交易所上市公司

    杰尼亚集团将成为纽约证券交易所上市公司

    发布时间:2021/07/20

      2021年7月19日,意大利米兰——享誉全球的意大利奢侈品企业杰尼亚集团(下简称“杰尼亚”“该集团”或者“该公司”)与意威基金Investindustrial七期基金旗下的特殊目的收购公司InvestindustrialAcquisitionCorp.(...

  • 浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    发布时间:2020/04/08

    本文来源“腾讯网”。 划重点:1.两家中国广告公司向我们提供了爱奇艺(IQ.US)后端系统的数据,这些数据显示,从2019年9月开始,爱奇艺的实际移动DAU比该公司在2019年10月宣称的1.75亿平均移动DAU低了60.3%。2.大约3...

  • 华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    发布时间:2020/04/08

    本文来自“腾讯证券”。 在券商杰富瑞(Jefferies)将特斯拉评级从“持有”上调到“买入”后,特斯拉(TSLA.US)在周一收盘上涨逾7.5%。上周五,特斯拉也因公司第一季度业绩强劲而迎来上涨。数据显示,该公司第一季度共...

  • 不满足于流媒体业务,亚马逊也要开始做游戏了

    不满足于流媒体业务,亚马逊也要开始做游戏了

    发布时间:2020/04/08

    本文来源“36氪”。为了在统治数字娱乐的战役中开辟新战线,Amazon(AMZN.US)正在投入数亿美元以成为视频游戏的领先制作商和发行商。由于卫生事件的影响数度推迟之后,这家互联网巨头表示,打算在5月发布其首款原创...

  • 刘强东“熔断”,徐雷成为京东的新“保险丝”

    刘强东“熔断”,徐雷成为京东的新“保险丝”

    发布时间:2020/04/08

    本文来自“盒饭财经”。公共卫生事件笼罩世界,全球经济遭遇重创,金融市场难以幸免,“熔断”一词频繁走入人们视野中。 作为在美股上市的企业,京东(JD.US)最近的日子也不太好过。瑞幸造假事件曝出后,京东“二号人...

Facebook详细介绍了wav2vec,这是一种AI算法,使用原始音频来改善语音识别

发布时间:2019/11/07 要闻 浏览次数:1189

 
自动语音识别(ASR)不仅是Apple Siri之类的助手的基础部分,还是Nuance Dragon之类的听写软件以及Google Contact Center AI之类的客户支持平台的基础部分。它使机器能够解析关键短语和单词的发音,并使其能够通过语调和音调来区分人。
也许不言而喻,ASR是Facebook研究的重点领域,Facebook的对话技术用于增强Portal的语音识别能力,并且正在扩大使用AI对其平台上的内容进行分类的用途。为此,在今年早些时候的InterSpeech会议上,Menlo Park公司详细介绍了wave2vec,这是一种新颖的机器学习算法,可通过使用未经转录的原始音频作为训练数据来提高ASR准确性。 Facebook声称它在一个流行的基准上获得了最先进的结果,同时使用的训练数据少了两个数量级,并且与基于领先的基于字符的语音识别系统Deep Speech 2相比,它的错误率降低了22%。
Wav2vec于今年早些时候作为开源建模工具包fairseq的扩展而提供,Facebook表示计划使用wav2vec来提供更好的音频数据表示,以用于关键词识别和声音事件检测。此外,它希望改进其现有系统,以主动违反社区准则来识别职位。
Facebook研究科学家和软件工程师Michael Auli,Siddhartha Shah,Alexei Baevski和他写道:“ Wav2vec代表了ASR系统的一大进步,这是一种识别语音的有希望的方向,该语言没有用于训练AI系统的大量数据集。 Christian Fuegen在博客文章中。 “但这也是我们自我监督培训的长期愿景的一部分,这种方法利用了未标记的培训示例,并使我们能够超越为培训AI系统而专门收集和注释的相对有限的数据集。”
除了wav2vec之外,Facebook还展示了一种新的自我监督模型ConvLM,该模型在正确识别其训练词典之外的单词方面具有最先进的性能,并且具有用于语音识别的轻量级序列到序列(seq2seq)模型。据报道比以前的工作更有效率,同时提供了更好的WER。两者均于9月在奥地利格拉茨的国际演讲中展出。
正如Auli及其同事在提交的论文中解释的那样,ASR系统通常在音频序列上以频谱图(随时间变化的频谱表示形式)和相应的文本进行训练。可以预见,要获得这些示例,需要手工标记大量音频数据,这将花费宝贵的时间和资源。相比之下,wav2vec是自我监督的,这意味着它将结合使用少量未标记数据和少量标记数据。
Wav2vec首先训练一个模型,以区分真实数据和一组干扰项样本,这有助于它学习在其上训练的音频数据的数学表示形式。编码器模型将原始音频输入映射到向量集(具有对应于特征的值的数字数组),其中每个向量覆盖大约30毫秒的语音,而上下文模型则使用这些向量来生成自己的表示形式,覆盖最多一秒的音频。
有了这些表示形式,wav2vec接下来尝试通过从其训练的10秒音频剪辑中生成较短的10毫秒长的干扰子示例来解决一系列自我监督预测任务。对于这些干扰因素样本,原始音频会与剪辑中其他位置的部分交换出去,并且模型必须确定10毫秒版本中的哪个是正确的。
Wav2vec学会了这种方法,可以每秒从干扰物样本中辨别出准确的语音声音,每秒数百次,从而有效地成为其自己的转录器。预测任务还可以作为wav2vec自我监督的基础:自动生成不正确版本的语音示例以测试系统并评估其性能,从而无需手动注释训练数据。
Facebook AI团队使用LibriSpeech数据集(来自公共领域有声读物的语料库)上不到1,000个小时的未标记语音示例对wav2vec进行了培训。接下来,他们使用waj2vec生成的表示法,对WSJ1语料库(大约是大声阅读的《华尔街日报》文章集)中大约81个小时的标记语音进行了语音识别模型的训练。
结果令人印象深刻。在Deep Speech 2上,Facebook的基于wav2vec的模型实现了2.43%的字错误率(WER),而基线系统使用12,000小时(超过150倍)的转录数据训练后的3.1 WER与之相比,实现了3.13的误码率,相对错误率。在随后的实验中,wav2vec训练的模型比标记版本的LibriSpeech产生的性能好于预训练,并且与缺少预训练表示的模型相比,WER改善了30%。
根据Auli及其小组的研究,这些结果表明,自我监督的技术可以将ASR功能扩展到资源有限的转录示例数据集中的低资源语言。他们写道:“这项工作的广泛意义与Facebook AI团队以及更广泛的AI社区对自我监督培训技术的追求有关。” “自我监督不仅在语音领域而且在该领域的几乎每个领域都在加速发展。朝着以无标签培训数据为规则而不是例外的未来过渡的最快方法将是通过持续的开放式协作科学。”
除了wav2vec之外,Facebook研究人员最近还详细介绍了ConvLM,它在字符级别使用了自我监督的语言建模来处理不熟悉的单词,即使在单词之间缺少空格的语言(如日语和泰语)中也是如此。带有Python包装程序的独立ConvLM库现已公开可用,以及LibriSpeech数据集上训练有素的模型。
与大多数单词转录算法不同,后者通过计算所有单词的频率来定义词汇表,并且无法识别那些无法满足特定阈值的单词(例如名称或位置),而ConvLM采用的是无词典方法。具体来说,它可以一次预测一个单词的整个单词,利用Facebook的wav2letter ++框架对数据样本的声学模型和公司用于语言模型训练的fairseq-py工具箱进行建模。
在测试中,Facebook AI研究人员表示,ConvLM可以正确识别出高达33%的非语音事件,从而获得清晰的语音,而没有背景噪声,并且与以前任何基于字符和无词典的ASR相比,它提供了更好的WER和字符错误率模型。此外,他们说ConvLM通过执行单词建模来提高wav2vec的效率,单词建模是单词和字符之间的文本的中间表示。
与ConvLM和wave2vec相辅相成的是Facebook的语音识别新seq2seq模型,该公司声称在不牺牲准确性的前提下,与以前的模型相比,其参数减少了75%。
关键是Facebook AI研究人员称之为时间深度可分离块,高效的内部连接结构以及可并行化的解码器模型。该架构经过精心设计,可根据输入序列的长度线性缩放,从而使语音识别中常见的长输入的效率更高。此外,当与卷积语言模型结合使用时,它可以在较小的设备上部署ASR,同时可以扩展到较大的自我监督和半监督学习算法。
这项最新的研究建立在Facebook在自然语言处理和ASR方面的广泛工作的基础上,最近的工作是该系统能够在给定语音数据的情况下以多种语言生成新的语音样本。 Facebook在5月的一份报告中表示,其AI和机器学习系统现在每个季度从Facebook删除的400万以上仇恨言论中占65%。在去年的F8开发者大会上,Facebook宣布将把自然语言处理(NLP)集成到Facebook Pages中,后者会自动从Page的收件箱中提取语言,以创建能够回答客户或关注者最可能提出的问题的AI。
在其他新闻中,Facebook最近推出了Pythia,这是一个模块化的即插即用框架,使数据科学家能够快速构建,再现和基准化AI模型。 Facebook AI和华盛顿大学的研究人员设计了各种方法来增强Google的BERT语言模型,并在流行的基准数据集上达到或超过最新结果的性能。 Facebook于今年夏天初成立了AI语言研究联盟,以解决自然语言处理方面的挑战。
“在自然语言处理的最新进展中,尤其是在机器翻译方面,我们已经看到使用自我监督的结果令人鼓舞。全世界有大约6,500种语言在使用-并且超过50%的Facebook社区使用英语以外的其他语言-探索能够加速ASR开发的自我监督方法是Facebook以及更广泛的AI的重要研究追求研究社区”。Auli及其同事写道。 “这种对自我监督技术的强调,需要更少的标签培训数据,并且较少依赖于特定于语言的微调,这将有助于确保最新的ASR可以使所有人,包括低资源语言使用者受益-超越英语,走向更全球化的视野。”

姓 名:
邮箱
留 言: