要闻
您现在的位置:首页 > 要闻 > Google的AI使用更少的计算和数据来训练最先进的语言模型
  • 营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    发布时间:2024/01/30

    过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    发布时间:2022/09/25

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居行业首...

  • 2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    发布时间:2022/07/25

    2022年7月15日“九阙央座,盛赋天坛”《国脉典藏豪宅样本》发布会现场,北京房协秘书长/高品质住宅综合测评中心创始人陈志先生、中国建筑北京设计研究院原副院长/总建筑师董少宇先生、攸克地产/豪宅一号出品人殷苏峰...

  • 杰尼亚集团将成为纽约证券交易所上市公司

    杰尼亚集团将成为纽约证券交易所上市公司

    发布时间:2021/07/20

      2021年7月19日,意大利米兰——享誉全球的意大利奢侈品企业杰尼亚集团(下简称“杰尼亚”“该集团”或者“该公司”)与意威基金Investindustrial七期基金旗下的特殊目的收购公司InvestindustrialAcquisitionCorp.(...

  • 浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    发布时间:2020/04/08

    本文来源“腾讯网”。 划重点:1.两家中国广告公司向我们提供了爱奇艺(IQ.US)后端系统的数据,这些数据显示,从2019年9月开始,爱奇艺的实际移动DAU比该公司在2019年10月宣称的1.75亿平均移动DAU低了60.3%。2.大约3...

  • 华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    发布时间:2020/04/08

    本文来自“腾讯证券”。 在券商杰富瑞(Jefferies)将特斯拉评级从“持有”上调到“买入”后,特斯拉(TSLA.US)在周一收盘上涨逾7.5%。上周五,特斯拉也因公司第一季度业绩强劲而迎来上涨。数据显示,该公司第一季度共...

  • 不满足于流媒体业务,亚马逊也要开始做游戏了

    不满足于流媒体业务,亚马逊也要开始做游戏了

    发布时间:2020/04/08

    本文来源“36氪”。为了在统治数字娱乐的战役中开辟新战线,Amazon(AMZN.US)正在投入数亿美元以成为视频游戏的领先制作商和发行商。由于卫生事件的影响数度推迟之后,这家互联网巨头表示,打算在5月发布其首款原创...

  • 刘强东“熔断”,徐雷成为京东的新“保险丝”

    刘强东“熔断”,徐雷成为京东的新“保险丝”

    发布时间:2020/04/08

    本文来自“盒饭财经”。公共卫生事件笼罩世界,全球经济遭遇重创,金融市场难以幸免,“熔断”一词频繁走入人们视野中。 作为在美股上市的企业,京东(JD.US)最近的日子也不太好过。瑞幸造假事件曝出后,京东“二号人...

Google的AI使用更少的计算和数据来训练最先进的语言模型

发布时间:2020/03/12 要闻 浏览次数:652

 
在最近的一项研究中,Google的研究人员提出了“有效学习一种对令牌替换进行准确分类的编码器(ELECTRA)”的方法,这是一种AI语言训练技术,在相同数量的计算资源下,其性能要优于现有方法。在发布数月后的这一周,合著者发布了TensorFlow的代码库(和预训练的模型),为强大的模型奠定了基础,这些模型能够以最先进的精度执行语言任务。这些模型可能有一天会进入客户服务聊天机器人,或者可能被合并到为执行团队总结报告的工具中。
预训练方法通常分为两类:语言模型(例如OpenAI的GPT),该模型从左到右处理输入文本并根据给定的上下文预测下一个单词;以及掩盖的语言模型(例如Google的BERT和ALBERT,以及Facebook的模型) RoBERTa),它可以预测输入中被掩盖的少量单词的身份。屏蔽语言模型的优势在于,它们可以“看到”要预测的令牌(即单词)左右两侧的文本,但是它们的预测仅限于输入令牌的一小部分,从而减少了学习量从每个句子。
ELECTRA的秘密秘诀是一项称为替换令牌检测的预训练任务,它可以在从所有输入位置进行学习的同时训练双向模型(就像被屏蔽的语言模型一样),非常类似于语言模型。该区分模型的任务是区分“真实”和“伪造”输入数据。 ELECTRA通过用不正确的伪造品(但有些合理的伪造品)替换某些令牌来“破坏”输入,然后,它要求模型确定哪些令牌已被替换或保持不变。
替换令牌来自另一个称为生成器的AI模型。生成器可以是在令牌上产生输出分布的任何模型,但是Google研究人员使用了与鉴别器一起训练的小型屏蔽语言模型。生成器和鉴别器共享相同的输入词嵌入。在预训练阶段之后,将生成器放下,并在各种下游任务上微调鉴别器(ELECTRA模型)。
该团队报告说,在实验中,ELECTRA比以前的方法“有了实质性的改进”,使用不到25%的计算量,其性能与RoBERTa和XLNet相当。在4天的时间里,在单个图形卡(计算的1/30)上训练了一个小的ELECTRA模型之后,研究人员设法超越了GPT。借助使用大量计算进行训练的大型ELECTRA模型,他们在SQuAD 2.0问答数据集和GLUE语言理解任务排行榜上获得了最先进的性能。 (ELECTRA在GLUE上没有击败Google自己的T5-11b,但研究表明它的大小是其的1/30,并使用了10%的计算能力进行训练。)
当使用少于1/4的计算量时,ELECTRA可以在GLUE自然语言理解基准上与RoBERTa和XLNet的性能相匹配,并在SQuAD问答基准上达到最新的结果。 ELECTRA出色的效率意味着即使在小规模的情况下也能很好地运行-可以在几天内在单个GPU上进行训练,其精度要高于GPT(该模型使用30倍的计算能力)。 ELECTRA已在TensorFlow之上作为开源模型发布,其中包括许多现成的预训练语言表示模型。
学生研究员Kevin Clark和Google Brain高级研究科学家Thang Luong在博客中写道:“ ELECTRA只需很少的示例就可以达到相同的性能,因为它每个示例都收到模式训练信号。” “与此同时,RTD带来了功能强大的表示学习,因为模型必须学习数据分布的准确表示才能解决任务。”