我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

信号
Boundless Socratic Learning with Language Games
这篇文章是一篇立场论文,讨论了在封闭系统中训练的代理(agent)如何掌握任何期望的能力,只要满足三个条件:(a) 接收到足够信息丰富且一致的反馈,(b) 经验/数据的覆盖范围足够广泛,以及 (c) 有足够的容量和资源。文章论证了这些条件,并考虑了在假设 (c) 不是瓶颈的情况下,(a) 和 (b) 在封闭系统中可能产生的限制。特别地,文章讨论了输入和输出空间相匹配的代理(即语言),认为这种纯粹的递归自我改进,被称为“苏格拉底学习”,可以极大地提升性能,超越初始数据或知识,并且只受时间和逐渐增加的不一致问题的限制。此外,文章提出了一个基于语言游戏概念的建设性框架来实现这种学习。
https://arxiv.org/abs/2411.16905
Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse
这篇文章探讨了链式思考(Chain-of-Thought,CoT)提示在大型语言和多模态模型中的应用及其效果。文章指出,尽管CoT在许多任务中提高了性能,但在某些情况下它可能会降低模型的性能,这仍然是一个开放的问题。文章通过借鉴认知心理学,研究了在人类中言语思考或深思熟虑会损害表现的情况,以及这些限制是否适用于语言模型。研究发现,在隐式统计学习、视觉识别和包含例外模式的分类等三种情况下,使用CoT会导致最先进的模型性能显著下降。文章还识别了满足条件(i)但不满足条件(ii)的三个任务,并发现尽管言语思考减少了人类在这些任务中的表现,但CoT却保持或提高了模型的性能。总体而言,研究结果表明,尽管模型的认知过程与人类并不完全相同,但考虑思考对人类表现产生负面影响的情况可以帮助我们识别对模型产生负面影响的设置。通过将关于人类深思熟虑的文献与CoT的评估联系起来,文章提供了一个新工具,用于理解提示选择和推理时推理的影响。
https://arxiv.org/abs/2410.21333
HuggingFace&Github
FineWeb 数据集的第二次迭代,覆盖数千种语言
FineWeb这是什么?
这是广受欢迎的FineWeb 数据集的第二次迭代,为超过 1000 种 语言带来了高质量的预训练数据。
FineWeb2 数据集完全可复现,并在宽松的 ODC-By 1.0 许可下提供使用。在经过数百次消融实验的严谨验证后,该公司对其品质充满信心。尤其值得关注的是,在我们用来指导处理决策的 9 种多元化语言测试集中,
FineWeb2 在多个衡量指标上优于其他同样覆盖多语言的主流预训练数据集(如 CC-100、mC4、CulturaX 或 HPLT),而且规模更大。在某些情况下,甚至在这些精心挑选的多元化评价任务(FineTasks)中,表现胜过专门为单一特定语言定制的数据集。
https://huggingface.co/datasets/HuggingFaceFW/fineweb-2
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/25118.html