大模型日报(10月23日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(10月23日 学术篇)

信号

01

Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws

目前并没有一个标准指南来指导如何在有限的计算预算下分配不同数据源。大多数现有方法要么依赖于对较小模型的广泛实验,要么通过需要Proxy模型的动态数据调整,这两者都显著增加了工作流程的复杂性和计算开销。本篇论文引入了一种名为Adaptive Data Optimization(ADO)的算法,该算法在模型训练过程中在线优化数据分布。ADO使用每个领域的Scaling Law来估计 该领域在训练过程中的学习潜力,并相应调整数据组合,使其更具可扩展性并更易于集成。
大模型日报(10月23日 学术篇)
https://x.com/SadhikaMalladi/status/1848696629765018103
02

Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

大型语言模型(LLMs)在各种认知任务中表现出显著的性能提升。一个新兴的应用是利用 LLMs RAG 的能力。这些系统要求LLMs理解用户查询,检索相关信息,并生成连贯且准确的回应。鉴于此类系统在现实世界中的应用日益增加,全面的评估变得至关重要。为此,作者提出了FRAMES(Factuality, Retrieval, And reasoning MEasurement Set),这是一个高质量的评估数据集,旨在测试LLMs提供事实性回应的能力、评估其检索能力以及生成最终答案所需的推理能力。虽然之前的研究提供了评估这些能力的单独数据集和基准,FRAMES则提供了一个统一的框架,可以更清晰地展示LLMs在端到端RAG场景中的表现。
大模型日报(10月23日 学术篇)
https://x.com/SatyaScribbles/status/1848721681709498480
03

A Watermark for Black-Box Language Models

Watermarking技术最近作为一种有效策略,用于检测大型语言模型(LLMs)的输出。大多数现有方案需要对模型的下一个词的概率分布进行白盒访问,而这一分布通常无法为LLM API的下游用户所获取。在这项工作中,作者提出了一种 principled watermarking 方案,该方案只需要能够从LLM中采样片段,并且可以使用多个secret keys进行串联或嵌套。
大模型日报(10月23日 学术篇)
https://x.com/johnwieting2/status/1848795087477592213
04

Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

多模态大型语言模型(MLLMs)正在改变图形用户界面(GUI)agents 的能力,推动其从受控模拟向跨多个平台的复杂现实世界应用过渡。然而,这些代理的有效性依赖于其稳健的基础能力。目前的 GUI agents 主要使用基于文本的表示形式,例如HTML或辅助功能树,尽管这些表示形式有其用处,但往往会引入噪声、不完整性以及增加计算开销。在本文中,作者主张GUI agents 采用类似人类的方式,通过完全视觉化感知环境并直接在GUI上进行像素级操作。关键在于视觉基础模型,这些模型能够准确地将GUI元素的各种指代表达映射到不同平台上GUI的坐标。作者展示了一种简单的方案,包括基于网页的合成数据和对LLaVA架构的轻微调整,这对训练这样的视觉基础模型非常有效。我们收集了迄今为止最大的GUI视觉基础数据集,包含1000万个GUI元素及其指代表达,覆盖了130多万张截图,并使用该数据集训练了UGround,一种强大的通用GUI代理视觉基础模型。
大模型日报(10月23日 学术篇)https://arxiv.org/abs/2410.05243

HuggingFace&Github
012

AutorizePro

AutorizePro 是一款专注于越权检测的 Burp 插件。它基于 Autorize 插件进行二次开发,通过增加 AI 分析模块和优化检测逻辑,大幅降低了误报率,提升了越权漏洞检出效率。
大模型日报(10月23日 学术篇)https://github.com/sule01u/AutorizePro
02

Meta Lingua

Meta Lingua 是一个轻量级、高效和易于修改的 PyTorch LLM 训练库,可以为 LLM 研究提供一个简单易用的框架。
大模型日报(10月23日 学术篇)
https://github.com/facebookresearch/lingua
                  
推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21636.html

Like (0)
Previous 2024-10-23 11:34
Next 2024-10-24 11:48

相关推荐