要闻
您现在的位置:首页 > 要闻 > GitHub现在使用AI推荐项目存储库中的未解决问题
  • 营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    营销与经营深度一体,巨量引擎助力品牌撬动全渠道增长

    发布时间:2024/01/30

    过去十年,中国企业在数字营销上的投入快速增长。根据eMarketer的数据,2023年国内数字广告的投入将达到1361亿美元,增长14.8%。数字营销已经成为品牌方最大的经营成本之一。面对如此巨大的投入,品牌方的管理层...

  • 门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    门窗行业复刻定制家居高光时刻,森鹰窗业上市成起点?

    发布时间:2022/09/25

    据悉,9月26日,森鹰窗业股份有限公司(以下简称森鹰窗业)将举办上市敲钟仪式,正式登陆深交所。 森鹰窗业是目前沪深两市第一家细分行业为“C2032木门窗制造”的上市公司。 这让笔者不禁想起2011年定制家居行业首...

  • 2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    2022年最热高端盘天坛府·九阙成首个“国脉典藏豪宅样本”

    发布时间:2022/07/25

    2022年7月15日“九阙央座,盛赋天坛”《国脉典藏豪宅样本》发布会现场,北京房协秘书长/高品质住宅综合测评中心创始人陈志先生、中国建筑北京设计研究院原副院长/总建筑师董少宇先生、攸克地产/豪宅一号出品人殷苏峰...

  • 杰尼亚集团将成为纽约证券交易所上市公司

    杰尼亚集团将成为纽约证券交易所上市公司

    发布时间:2021/07/20

      2021年7月19日,意大利米兰——享誉全球的意大利奢侈品企业杰尼亚集团(下简称“杰尼亚”“该集团”或者“该公司”)与意威基金Investindustrial七期基金旗下的特殊目的收购公司InvestindustrialAcquisitionCorp.(...

  • 浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    浑水协助Wolfpack做空爱奇艺(IQ.US) 看空报告全文来了

    发布时间:2020/04/08

    本文来源“腾讯网”。 划重点:1.两家中国广告公司向我们提供了爱奇艺(IQ.US)后端系统的数据,这些数据显示,从2019年9月开始,爱奇艺的实际移动DAU比该公司在2019年10月宣称的1.75亿平均移动DAU低了60.3%。2.大约3...

  • 华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    华尔街大佬巴鲁克:特斯拉(TSLA.US)目标股价达600美元,仍有18%上行空间

    发布时间:2020/04/08

    本文来自“腾讯证券”。 在券商杰富瑞(Jefferies)将特斯拉评级从“持有”上调到“买入”后,特斯拉(TSLA.US)在周一收盘上涨逾7.5%。上周五,特斯拉也因公司第一季度业绩强劲而迎来上涨。数据显示,该公司第一季度共...

  • 不满足于流媒体业务,亚马逊也要开始做游戏了

    不满足于流媒体业务,亚马逊也要开始做游戏了

    发布时间:2020/04/08

    本文来源“36氪”。为了在统治数字娱乐的战役中开辟新战线,Amazon(AMZN.US)正在投入数亿美元以成为视频游戏的领先制作商和发行商。由于卫生事件的影响数度推迟之后,这家互联网巨头表示,打算在5月发布其首款原创...

  • 刘强东“熔断”,徐雷成为京东的新“保险丝”

    刘强东“熔断”,徐雷成为京东的新“保险丝”

    发布时间:2020/04/08

    本文来自“盒饭财经”。公共卫生事件笼罩世界,全球经济遭遇重创,金融市场难以幸免,“熔断”一词频繁走入人们视野中。 作为在美股上市的企业,京东(JD.US)最近的日子也不太好过。瑞幸造假事件曝出后,京东“二号人...

GitHub现在使用AI推荐项目存储库中的未解决问题

发布时间:2020/01/25 要闻 浏览次数:632

 
GitHub上的大型开源项目列出了需要解决的一长串问题。为了使发现最紧迫的问题更容易,GitHub最近引入了“良好的先发问题”功能,该功能将贡献者与可能符合其兴趣的问题相匹配。初始版本于2019年5月发布,基于项目维护者应用于问题的标签浮出水面。但是上个月发布的更新版本包含了一个AI算法,GitHub声称它在推荐给用户的大约70%的存储库中存在表面问题。
GitHub指出,这是第一个在Github.com上启用深度学习的产品。
根据GitHub高级机器学习工程师Tiferet Gazit的说法,GitHub去年进行了分析和手动管理,以创建流行的开源存储库使用的300个标签名称的列表。 (所有都是“好问题”或“文档”的同义词,例如“初学者友好”,“易于修复错误”和“低落的果实”。)但是,依靠这些意味着仅约40%的推荐的存储库存在可能浮出水面的问题。另外,它使项目维护者自己承担了对问题进行分类和标记的负担。
相比之下,新的AI推荐器系统基本上是自动的。但是构建它需要精心设计的注释训练集,包含数十万个样本。
Github推荐人AI
GitHub首先列出了精选列表中的大约300个标签中的任何一个,并补充了几组也可能对初学者友好的问题。 (这包括那些以前从未向存储库供稿的用户关闭过的文件,以及关闭的问题只涉及单个文件中几行代码的问题。)在检测并删除几乎重复的问题之后,进行了几次培训,验证和测试集跨存储库分开以防止类似内容的数据泄漏,并且GitHub训练AI系统仅使用经过预处理和去噪后的问题标题和正文,以确保在打开它们后立即检测到好问题。
在生产中,AI算法预测其概率高于所需阈值的每个问题都会被推荐进行推荐,其置信度得分等于其预测概率。从非归档公共存储库中公开的问题中,至少有一个选自策展标签列表中的一个标签,将根据其标签的相关性给他们一个可信度评分,与“文档”的同义词相比,“良好首发”的同义词的可信度更高在存储库级别,所有检测到的问题主要根据其可信度评分(尽管基于标签的检测通常比基于ML的检测具有更高的可信度)以及对发布时间的惩罚。
根据Gazit的说法,数据采集,培训和推理管道每天运行,使用计划的工作流程来确保结果保持“新鲜”和“相关”。将来,GitHub打算向其存储库建议中添加更好的信号,并为维护者提供一种机制和分类人员在其存储库中批准或删除基于AI的建议。它还计划扩展问题建议,为下一个问题提供个性化建议,以解决已经为项目做出贡献的任何人。