博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
直达学界最前沿!机器学习成果主站助你永不落伍!
阅读量:2089 次
发布时间:2019-04-29

本文共 1853 字,大约阅读时间需要 6 分钟。

全文共1672字,预计学习时长6分钟

图源:unsplash

 

不管是在学界还是业界,机器学习的发展都十分迅速,相关论文数量的呈指数增长,平均每15分钟就有一篇新论文发表。

这种发展速度也给我们带来了新的挑战:面对越来越多的论文和知识库,我们该如何过滤信息,保证获取最新知识?

有一个机器学习成果主站致力于在一处汇总机器学习的所有成果,可以保持与该领域进展时刻联系。每个人都可以从最新的知识中受益,包括研究人员、工程师和业余爱好者,以便改善可获得性,并最终促进自身的发展。

去年我们的 leaderboards排行榜功能迈出了第一步。用机器可读的格式和免费的许可证,将所有在ML中发布的结果整理到一起,这是整个社区的努力。成千上万的贡献者为自己和其他的论文添加了结果,所有人的共同努力让我们创建了世界上最大的机器学习成果数据库。

本文将介绍几个令人兴奋的有代码论文的更新:

·        新成果界面:直接链接到arXiv论文的表格,成为机器学习成果的主要来源。

·        大型数据库更新:800多个新的排行榜,5500多个新结果,方法之间能够进行更多的任务比较。

·        机器学习提取算法:半自动提取论文结果,比以往精度更高。

新成果界面

研究人员对排行榜功能的主要要求之一,是更清晰说明论文中的成果来自何处。因此我们推出了新成果界面,直接将成果与arXiv论文中的原始表格链接起来。

例如ImageNet排行榜,单击任意一行的结果图标,它将跳转到文章表格中成果的来源。示例如下:

 

现在论文中成果直接链接到表格

这个新界面还可以作为新的论文成果编辑器,社区可以添加来自他们自己论文的结果,并直接将它们与内部的表格链接。这个接口目前只能用于使用LaTeX源代码的arXiv论文。

大型数据库更新

新界面和提取模型拓宽了资源:截至目前,这里已有800多个新的排行榜和5500多个新结果。这有助于资源全面性的实现,但还远远不够!我们呼吁所有机器学习论文的作者、工程师和爱好者提交自己的和读过的任何论文。

图源:unsplash

我们的数据库是免费开放的,每个人都可以做出贡献。所有的数据都是在免费的开放数据许可协议下授权的,可以在这里下载所有JSON格式的数据。社区的持续贡献将保持资源的运行,提高可访问性,让知识在领域里动起来。

自动提取结果

 

从论文到使用AxCell的成果

过去的一年里,我们一直在研究从机器学习论文中自动提取成果的方法。如今有了新的人工循环系统,便于成果的提取。

模型为每一篇arXiv机器学习论文生成建议,可以选择接受也可以拒绝。比以前的最先进水平显著提高的性能,已经使系统在实际上可以实现。这将提高成果的质量和覆盖率,以便随时向社区通报机器学习的新进程,哪怕是在小众冷门和专门的子领域。

在 arXiv上已经发布了整个方法,并在GitHub上开放了整个过程(https://github.com/paperswithcode/axcell)。

此外,我们还发布了用于结果提取的训练模型的数据集,它具有结构化、有注释的特点,另一个数据集用于评估模型在此任务中的性能表现。

 

技术的发展给我们带来实打实的便利。几年前,跟踪机器学习的进展还是很困难的,现在你可以在Google上输入随便一个基准,在几秒钟内就能找到最好的方法。

 

图源:unsplash

但排行榜有其局限性。排行榜上的指标通常只是点估计,而许多因素影响最终的价值,例如额外的训练数据、训练时间和数据增加的选择。

此外,数据偏差可能意味着排行榜的进展并不是衡量研究进展的最佳方式。之后我们会进行将更深入研究,以便能够更好比较机器学习方法,而不仅是简单地比较给定基准的最新水平。

整体而言,如今发布的变化确实是朝着将所有机器学习成果集中在一起。

我们期待新特性能给使用者带来更全面的体验,即使是机器学习的小众领域也能拥有工具,更好总结进展和比较不同的方法。请浏览 paperswithcode.com/sota目录,使用搜索找到论文、添加成果!

机器学习的研究世界需要我们共同构建,期待着在不久的将来能有更多像这样的功能。

  

推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:王品一、刘鉴楠

相关链接:

https://medium.com/paperswithcode/a-home-for-results-in-ml-e25681c598dc

如转载,请后台留言,遵守转载规范

推荐文章阅读

长按识别二维码可添加关注

读芯君爱你

你可能感兴趣的文章
seq2seq 的 keras 实现
查看>>
seq2seq 入门
查看>>
什么是 Dropout
查看>>
用 LSTM 做时间序列预测的一个小例子
查看>>
用 LSTM 来做一个分类小问题
查看>>
详解 LSTM
查看>>
按时间轴简述九大卷积神经网络
查看>>
详解循环神经网络(Recurrent Neural Network)
查看>>
为什么要用交叉验证
查看>>
用学习曲线 learning curve 来判别过拟合问题
查看>>
用验证曲线 validation curve 选择超参数
查看>>
用 Grid Search 对 SVM 进行调参
查看>>
用 Pipeline 将训练集参数重复应用到测试集
查看>>
PCA 的数学原理和可视化效果
查看>>
机器学习中常用评估指标汇总
查看>>
什么是 ROC AUC
查看>>
Bagging 简述
查看>>
详解 Stacking 的 python 实现
查看>>
简述极大似然估计
查看>>
用线性判别分析 LDA 降维
查看>>