要闻
您现在的位置:首页 > 要闻 > 麻省理工学院MIT CSAIL的机器学习算法有助于预测大数据流中的模式
  • 营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    发布时间:2024/01/30

    过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    发布时间:2022/09/25

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居行业首...

  • 2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    发布时间:2022/07/25

    2022年7月15日“九阙央座,盛赋天坛”《国脉典藏豪宅样本》发布会现场,北京房协秘书长/高品质住宅综合测评中心创始人陈志先生、中国建筑北京设计研究院原副院长/总建筑师董少宇先生、攸克地产/豪宅一号出品人殷苏峰...

  • 杰尼亚集团将成为纽约证券交易所上市公司

    杰尼亚集团将成为纽约证券交易所上市公司

    发布时间:2021/07/20

      2021年7月19日,意大利米兰——享誉全球的意大利奢侈品企业杰尼亚集团(下简称“杰尼亚”“该集团”或者“该公司”)与意威基金Investindustrial七期基金旗下的特殊目的收购公司InvestindustrialAcquisitionCorp.(...

  • 浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    发布时间:2020/04/08

    本文来源“腾讯网”。 划重点:1.两家中国广告公司向我们提供了爱奇艺(IQ.US)后端系统的数据,这些数据显示,从2019年9月开始,爱奇艺的实际移动DAU比该公司在2019年10月宣称的1.75亿平均移动DAU低了60.3%。2.大约3...

  • 华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    发布时间:2020/04/08

    本文来自“腾讯证券”。 在券商杰富瑞(Jefferies)将特斯拉评级从“持有”上调到“买入”后,特斯拉(TSLA.US)在周一收盘上涨逾7.5%。上周五,特斯拉也因公司第一季度业绩强劲而迎来上涨。数据显示,该公司第一季度共...

  • 不满足于流媒体业务,亚马逊也要开始做游戏了

    不满足于流媒体业务,亚马逊也要开始做游戏了

    发布时间:2020/04/08

    本文来源“36氪”。为了在统治数字娱乐的战役中开辟新战线,Amazon(AMZN.US)正在投入数亿美元以成为视频游戏的领先制作商和发行商。由于卫生事件的影响数度推迟之后,这家互联网巨头表示,打算在5月发布其首款原创...

  • 刘强东“熔断”,徐雷成为京东的新“保险丝”

    刘强东“熔断”,徐雷成为京东的新“保险丝”

    发布时间:2020/04/08

    本文来自“盒饭财经”。公共卫生事件笼罩世界,全球经济遭遇重创,金融市场难以幸免,“熔断”一词频繁走入人们视野中。 作为在美股上市的企业,京东(JD.US)最近的日子也不太好过。瑞幸造假事件曝出后,京东“二号人...

麻省理工学院MIT CSAIL的机器学习算法有助于预测大数据流中的模式

发布时间:2019/04/03 要闻 浏览次数:983

 
有没有听说过“布兰妮斯皮尔斯问题”?与它听起来相反,它与富人和名人的dalliances无关。相反,它是与数据跟踪相关的计算难题:为个人用户精确定制数据丰富的服务(如搜索引擎或光纤互联网连接),假设需要跟踪发送到服务提供商和从服务提供商发送的每个数据包,这不用说是不是实用。为了解决这个问题,大多数公司利用算法来猜测通过散列数据来交换数据的频率(即将其分解成碎片)。但这必然会牺牲细微差别 – 在大数据量中自然出现的模式在雷达下飞行。
幸运的是,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员相信他们已经设计出一种依赖于机器学习的可行替代方案。在一篇新发表的论文(“基于学习的频率估计算法”)中,他们描述了一个系统 – 被称为LearnedSketch,因为它“勾勒”数据流中的数据 – 预测特定数据元素是否会比其他数据更频繁地出现并且,如果它们实际上是这样做的,则将它们与其余的散列部分自动地分开。
该论文的作者称,这是第一种基于机器学习的方法,不仅用于频率估计,而且用于流式算法,这是一类算法,其中输入数据作为序列呈现,并且只能在几次通过中检查。在许多应用程序中,它们广泛用于安全系统和自然语言处理管道。
“[S] treaming算法通常假定通用数据,并且不利用其输入的有用模式或属性,”该团队解释说。 “例如,在文本数据中,已知单词频率与单词的长度成反比。类似地,在网络数据中,某些应用程序往往比其他应用程序产生更多的流量。如果可以利用这些属性,可以设计出比现有算法更有效的频率估算算法。“
在实验中,LearnedSketch展示了检测和隔离丰富数据的能力。例如,对来自第1层ISP的2.1亿个数据包进行了培训,它的性能优于现有的估算网络中互联网流量的方法,误差减少了57%。并且考虑到380万个独特的AOL查询,它设法估算了互联网搜索字词的查询数量,误差减少了71%。
而且,LearnedSketch非常普遍;它学到的结构可以应用于以前从未见过的物品。在一项实验中,它负责确定哪些互联网连接具有最多流量,它通过其目标IP地址的前缀对不同连接进行聚类,表明对生成大流量的互联网订户倾向于共享特定前缀的规则的认识。
研究人员认为,LearnedSketch(或类似人工智能系统)有朝一日可用于跟踪社交媒体上的热门话题,或识别网络流量中的麻烦高峰并改善电子商务网站的产品推荐。但实际上,博士生和合着者陈宇宇说,天空是极限。
“这些结果表明,机器学习是一种可以与经典的算法范例一起使用的方法,如”分而治之“和动态编程,”Hsu补充道。 “我们将模型与经典算法结合起来,以便我们的算法自然地从经典算法中继承最坏情况的保证。”
该研究计划于5月在新奥尔良国际学习会议上公布。
 
 
 
 
 

姓 名:
邮箱
留 言: