要闻
您现在的位置:首页 > 要闻 > 研究人员吹捧可以预测未来25个视频帧的AI
  • 营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    发布时间:2024/01/30

    过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    发布时间:2022/09/25

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居行业首...

  • 2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    发布时间:2022/07/25

    2022年7月15日“九阙央座,盛赋天坛”《国脉典藏豪宅样本》发布会现场,北京房协秘书长/高品质住宅综合测评中心创始人陈志先生、中国建筑北京设计研究院原副院长/总建筑师董少宇先生、攸克地产/豪宅一号出品人殷苏峰...

  • 杰尼亚集团将成为纽约证券交易所上市公司

    杰尼亚集团将成为纽约证券交易所上市公司

    发布时间:2021/07/20

      2021年7月19日,意大利米兰——享誉全球的意大利奢侈品企业杰尼亚集团(下简称“杰尼亚”“该集团”或者“该公司”)与意威基金Investindustrial七期基金旗下的特殊目的收购公司InvestindustrialAcquisitionCorp.(...

  • 浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    发布时间:2020/04/08

    本文来源“腾讯网”。 划重点:1.两家中国广告公司向我们提供了爱奇艺(IQ.US)后端系统的数据,这些数据显示,从2019年9月开始,爱奇艺的实际移动DAU比该公司在2019年10月宣称的1.75亿平均移动DAU低了60.3%。2.大约3...

  • 华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    发布时间:2020/04/08

    本文来自“腾讯证券”。 在券商杰富瑞(Jefferies)将特斯拉评级从“持有”上调到“买入”后,特斯拉(TSLA.US)在周一收盘上涨逾7.5%。上周五,特斯拉也因公司第一季度业绩强劲而迎来上涨。数据显示,该公司第一季度共...

  • 不满足于流媒体业务,亚马逊也要开始做游戏了

    不满足于流媒体业务,亚马逊也要开始做游戏了

    发布时间:2020/04/08

    本文来源“36氪”。为了在统治数字娱乐的战役中开辟新战线,Amazon(AMZN.US)正在投入数亿美元以成为视频游戏的领先制作商和发行商。由于卫生事件的影响数度推迟之后,这家互联网巨头表示,打算在5月发布其首款原创...

  • 刘强东“熔断”,徐雷成为京东的新“保险丝”

    刘强东“熔断”,徐雷成为京东的新“保险丝”

    发布时间:2020/04/08

    本文来自“盒饭财经”。公共卫生事件笼罩世界,全球经济遭遇重创,金融市场难以幸免,“熔断”一词频繁走入人们视野中。 作为在美股上市的企业,京东(JD.US)最近的日子也不太好过。瑞幸造假事件曝出后,京东“二号人...

研究人员吹捧可以预测未来25个视频帧的AI

发布时间:2019/11/11 要闻 浏览次数:708

 
人工智能和机器学习算法越来越善于预测视频中的下一个动作。最好的人可以相当准确地预测棒球在投球后可能会移动到哪里,或者距起始位置数英里的道路。为此,谷歌,密歇根大学和Adobe的研究人员提出了一种新颖的方法,该方法利用大型模型提高了艺术水平,该模型仅用几帧即可生成高质量的视频。更令人印象深刻的是,它无需像以前的方法那样依赖光流(场景中物体,表面或边缘的明显运动的模式)或地标等技术就可以做到这一点。
研究人员在描述其工作的预印本论文中写道:“在这项工作中,我们只是通过最大化标准神经网络的容量来研究是否能够实现高质量的视频预测。” “据我们所知,这项工作是第一个对容量增加对视频预测的影响进行彻底调查的工作。”
该小组的基准模型建立在现有的随机视频生成(SVG)架构的基础上,并具有对未来预测中固有的不确定性进行建模的组件。他们针对为三种预测类别量身定制的数据集分别训练和测试了模型的多个版本:对象交互,结构化运动和部分可观察性。对于第一个任务(对象交互),研究人员从机器人手臂与毛巾交互的视频语料库中选择了256个视频,对于第二个(结构化运动),他们从Human 3.6M中提取了片段,该语料库包含了人类执行动作的片段就像坐在椅子上一样。至于部分可观察性任务,他们使用了来自前车仪表板摄像机镜头的开源KITTI驾驶数据集。
团队将每个模型的条件调整为2到5个视频帧,并让模型在训练期间预测未来的5到10帧-针对所有任务的分辨率为低分辨率(64 x 64像素),分辨率为低分辨率和高分辨率(128 x 128)像素)用于对象互动任务。在测试期间,模型最多生成25帧。
研究人员报告说,通过Amazon Mechanical Turk招募的评估人员,在对象交互,结构化运动和部分可观察性任务方面,最大的模型之一分别有90.2%,98.7%和99.3%的时间更可取。定性地,研究小组注意到,该模型清晰地描绘了人类的手臂和腿,并做出了“非常敏锐的预测,与地面真实情况相比,这些预测看起来很现实。”
该论文的合著者写道:“我们的实验证实了在存在不确定性(例如动作或控制未知的视频)的情况下,经常性连接和随机性(或随机性)建模的重要性。” “我们还发现,最大化此类模型的容量可以提高视频预测的质量。我们希望我们的工作能够鼓励该领域在未来朝着类似的方向发展,即,看看我们能达到……实现高质量视频预测的程度。”

姓 名:
邮箱
留 言: