直达学界最前沿！机器学习成果主站助你永不落伍！-白红宇

直达学界最前沿！机器学习成果主站助你永不落伍！

阅读量：2089 次

发布时间：2019-04-29

本文共 1853 字，大约阅读时间需要 6 分钟。

全文共1672字，预计学习时长6分钟

图源：unsplash

不管是在学界还是业界，机器学习的发展都十分迅速，相关论文数量的呈指数增长，平均每15分钟就有一篇新论文发表。

这种发展速度也给我们带来了新的挑战：面对越来越多的论文和知识库，我们该如何过滤信息，保证获取最新知识？

有一个机器学习成果主站致力于在一处汇总机器学习的所有成果，可以保持与该领域进展时刻联系。每个人都可以从最新的知识中受益，包括研究人员、工程师和业余爱好者，以便改善可获得性，并最终促进自身的发展。

去年我们的 leaderboards排行榜功能迈出了第一步。用机器可读的格式和免费的许可证，将所有在ML中发布的结果整理到一起，这是整个社区的努力。成千上万的贡献者为自己和其他的论文添加了结果，所有人的共同努力让我们创建了世界上最大的机器学习成果数据库。

本文将介绍几个令人兴奋的有代码论文的更新:

· 新成果界面：直接链接到arXiv论文的表格，成为机器学习成果的主要来源。

· 大型数据库更新：800多个新的排行榜，5500多个新结果，方法之间能够进行更多的任务比较。

· 机器学习提取算法：半自动提取论文结果，比以往精度更高。

新成果界面

研究人员对排行榜功能的主要要求之一，是更清晰说明论文中的成果来自何处。因此我们推出了新成果界面，直接将成果与arXiv论文中的原始表格链接起来。

例如ImageNet排行榜，单击任意一行的结果图标，它将跳转到文章表格中成果的来源。示例如下：

现在论文中成果直接链接到表格

这个新界面还可以作为新的论文成果编辑器，社区可以添加来自他们自己论文的结果，并直接将它们与内部的表格链接。这个接口目前只能用于使用LaTeX源代码的arXiv论文。

大型数据库更新

新界面和提取模型拓宽了资源：截至目前，这里已有800多个新的排行榜和5500多个新结果。这有助于资源全面性的实现，但还远远不够！我们呼吁所有机器学习论文的作者、工程师和爱好者提交自己的和读过的任何论文。

图源：unsplash

我们的数据库是免费开放的，每个人都可以做出贡献。所有的数据都是在免费的开放数据许可协议下授权的，可以在这里下载所有JSON格式的数据。社区的持续贡献将保持资源的运行，提高可访问性，让知识在领域里动起来。

自动提取结果

从论文到使用AxCell的成果

过去的一年里，我们一直在研究从机器学习论文中自动提取成果的方法。如今有了新的人工循环系统，便于成果的提取。

模型为每一篇arXiv机器学习论文生成建议，可以选择接受也可以拒绝。比以前的最先进水平显著提高的性能，已经使系统在实际上可以实现。这将提高成果的质量和覆盖率，以便随时向社区通报机器学习的新进程，哪怕是在小众冷门和专门的子领域。

在 arXiv上已经发布了整个方法，并在GitHub上开放了整个过程（https://github.com/paperswithcode/axcell）。

此外，我们还发布了用于结果提取的训练模型的数据集，它具有结构化、有注释的特点，另一个数据集用于评估模型在此任务中的性能表现。

技术的发展给我们带来实打实的便利。几年前，跟踪机器学习的进展还是很困难的，现在你可以在Google上输入随便一个基准，在几秒钟内就能找到最好的方法。

图源：unsplash

但排行榜有其局限性。排行榜上的指标通常只是点估计，而许多因素影响最终的价值，例如额外的训练数据、训练时间和数据增加的选择。

此外，数据偏差可能意味着排行榜的进展并不是衡量研究进展的最佳方式。之后我们会进行将更深入研究，以便能够更好比较机器学习方法，而不仅是简单地比较给定基准的最新水平。

整体而言，如今发布的变化确实是朝着将所有机器学习成果集中在一起。

我们期待新特性能给使用者带来更全面的体验，即使是机器学习的小众领域也能拥有工具，更好总结进展和比较不同的方法。请浏览 paperswithcode.com/sota目录，使用搜索找到论文、添加成果！

机器学习的研究世界需要我们共同构建，期待着在不久的将来能有更多像这样的功能。

推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组：王品一、刘鉴楠