大模型日报(9月29日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(9月29日 学术篇)

信号

01
Introducing Capital Companion: A New Approach to AI-Assisted Trading

Capital Companion是一个新型的AI辅助交易工具,它通过分析市场数据为交易者提供有价值的交易建议和实时的市场信息。该工具包括交互式图表、情绪分析、风险管理功能,并注重用户友好的界面设计。它旨在帮助交易者简化信息、支持决策、管理风险,并更轻松地进行技术分析。开发者承诺会根据用户反馈持续改进这个工具。
大模型日报(9月29日 学术篇)
https://sethhobson.com/2024/09/introducing-capital-companion-a-new-approach-to-ai-assisted-trading/
02

Accelerating Leaderboard-Topping ASR Models 10x with NVIDIA NeMo

这些模型通过一系列创新,如自动将张量转换为bfloat16、标签循环算法和CUDA Graphs,实现了高达10倍的推理速度提升。这些优化不仅提高了ASR模型的性能,还显著降低了成本,使得在云平台、数据中心或工作站上运行的生产应用程序能够更快、更经济地集成多语言转录和翻译。此外,NVIDIA还发布了更小的Parakeet混合传输器-CTC模型,进一步提高了识别的准确性和速度。

大模型日报(9月29日 学术篇)

https://developer.nvidia.com/blog/accelerating-leaderboard-topping-asr-models-10x-with-nvidia-nemo/
03
AI safety is not a model property

AI安全并不是AI模型的内在属性,而更多地取决于模型部署的上下文和环境。作者认为,将安全性视为模型的属性是AI领域的一个普遍但错误的假设。基于此观点,作者提出四个建议:首先,防御措施应主要在模型之外进行;其次,应评估模型发布的边际风险;第三,红队测试应重新聚焦于早期预警;最后,红队测试应由具有一致激励的第三方领导。

大模型日报(9月29日 学术篇)

https://www.aisnakeoil.com/p/ai-safety-is-not-a-model-property
04
An Adversarial Perspective on Machine Unlearning for AI Safety

探讨了机器学习中的“反学习”(unlearning)概念,特别是在大型语言模型(LLMs)中的应用,并从对抗性的角度挑战了反学习与传统安全微调(safety finetuning)之间的基本差异。研究发现,尽管反学习旨在从模型中完全移除有害知识,但通过小心地应用现有的越狱(jailbreak)技术,这些知识仍然可以被恢复。

大模型日报(9月29日 学术篇)

https://arxiv.org/abs/2409.18025
05

Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models

介绍了一种名为“思维逻辑”(Logic-of-Thought,LoT)的新方法,旨在通过将输入内容转换成逻辑表达式,并将其作为额外信息添加到输入提示中,从而增强大型语言模型(LLMs)在复杂逻辑推理任务中的表现。LoT能够与现有的提示方法(如思维链(Chain-of-Thought))无缝集成,并且在多个逻辑推理数据集上显著提高了这些方法的性能。

大模型日报(9月29日 学术篇)

https://arxiv.org/pdf/2409.17539
06

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

这篇文章介绍了Molmo,一系列最先进的多模态开放大型语言模型(VLMs)。Molmo的创新之处在于它使用了一个全新的、详细的图像字幕数据集,该数据集完全由人类注释者通过语音描述收集而来。为了支持广泛的用户交互,文章还介绍了一个多样化的数据集混合,用于微调,包括野外问答和创新的2D指向数据。Molmo的成功依赖于模型架构细节的谨慎选择、训练流程的调整,以及新收集数据集的质量。Molmo系列中的最佳模型不仅在开放权重和数据模型类别中表现优异,与GPT-4o、Claude 3.5和Gemini 1.5等专有系统相比,在学术基准测试和人类评估中也表现良好。文章承诺在不久的将来会发布所有模型权重、字幕和微调数据以及源代码。大模型日报(9月29日 学术篇)
https://molmo.allenai.org/paper.pdf
HuggingFace&Github

01

screenpipe

Screenpipe 是一个开源的 24/7 本地 AI 屏幕和麦克风录制库,可以帮助开发者构建基于完整上下文的 AI 应用程序。作为 Rewind.ai 的替代品,Screenpipe 使用 Rust 语言开发,用户可以完全控制自己的数据。其主要功能包括持续的屏幕和音频捕捉、支持多种安装方式(如命令行工具和桌面应用)、插件系统以及与其他 AI 系统的集成。

大模型日报(9月29日 学术篇)

https://github.com/mediar-ai/screenpipe
02

Exo

exo 是一个可以让用户在家中使用普通设备运行的 AI 集群。它支持多种模型(如 LLaMA、Mistral、LlaVA、Qwen 和 Deepseek),能够根据网络拓扑和设备资源动态分割模型,并自动发现其他设备,无需手动配置。该项目提供与 ChatGPT 兼容的 API,采用对等连接架构,避免主从模式。

大模型日报(9月29日 学术篇)

https://github.com/exo-explore/exo
推荐阅读

  1. 「草莓」OpenAI o1大模型信号看板大汇总!!
  2.   The theory of LLMs|朱泽园ICML演讲整理
  3.   寒武纪视觉爆炸:多模态大模型在视觉处理中的新探索

— END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/21370.html

Like (0)
Previous 2024-09-29 19:45
Next 2024-09-30 20:01

相关推荐