我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
资讯
OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首
在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。本次参评登顶的 Coding Agent 是 Gru 团队的 Bug Fix Gru。Gru 团队撰写了两篇博客来说明为 SWE 做了哪些工作。 https://gru.ai/blog/road-to-ultimate-pull-request-machine-continued/。除了提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具外,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。最重要的是,团队内部有一个评估流程来评估任何改动带来的影响。
PyTorch Triton:探索无英伟达 CUDA 的大模型推理技术
PyTorch 最近宣布探索无英伟达 CUDA 的大语言模型(LLM)推理,并采用 OpenAI 的 Triton 作为核心技术。Triton 提供了跨多种 GPU(包括英伟达、AMD、英特尔等)的推理能力,提升了内存管理和编译效率。
技术细节上,PyTorch 用 Triton 生成和手写内核,替代 CUDA 内核,用于 Transformer 模型的关键操作如矩阵乘法和注意力机制。通过优化 Triton 的 SplitK GEMM 内核,PyTorch 实现了 1.2 倍的加速。此外,团队还使用了不同的 Flash Attention 内核,包括 AMD Flash 和 FlexAttention,评估了其在推理中的性能表现。
PyTorch 对 Granite-8B 和 Llama3-8B 模型进行了基准测试,结果显示 Triton 模型在英伟达 H100 和 A100 GPU 上达到了 CUDA 性能的 78% 和 82%。尽管 Triton 仍比 CUDA 慢,尤其在矩阵乘法和 Flash Attention 上,PyTorch 团队正在继续优化,以缩小与 CUDA 的差距。
谷歌正式发布Illuminate
Google推出的**Illuminate**是一个将学术论文自动生成音频对话的AI工具。它利用Google的大型语言模型(LLM)Gemini,将复杂的研究论文转换为清晰、引人入胜的对话式播客。用户可以通过AI生成的男性采访者与女性专家之间的问答形式,快速掌握论文的核心内容。例如,在《Attention is All You Need》这篇论文的播客中,AI解释了序列模型RNN、LSTM在处理长序列时的局限性,以及Transformer通过自注意力机制和多头注意力机制克服了这些挑战。
Illuminate适合用户在开车、运动等场景下聆听学术内容,并且支持调整播放速度和音频格式的灵活切换,增强学习体验。虽然目前仅限于计算机科学论文,且支持的语言和功能较有限,但随着产品的不断优化,将逐步扩展更多领域和功能,提供更加用户友好的学术学习方式。
https://mp.weixin.qq.com/s/2C2B5yNLjXXYyDQnQgqPyQ
用杏鲍菇控制机器人运动!康奈尔等新研究登Science子刊
康奈尔大学和佛罗伦萨大学联合进行,研究人员通过将杏鲍菇(刺芹侧耳)的菌丝体与机器人系统相结合,实现了真菌控制机器人的运动。核心技术在于捕捉菌丝体的生物电信号并将其转化为控制机器人的数字信号。
首先,研究人员设计了一种菌丝体电接口,能够长期稳定地捕捉真菌产生的电信号。这些电信号是通过插入不锈钢电极,并以10S/s采样率记录约30天的数据。采集到的信号数据通过Python处理,包括去噪和平滑后,再对电位尖峰进行统计分析。实验发现,菌丝体能够自发产生稳定的电位尖峰,幅值范围从135μV到1868μV,频率约为0.12次/秒。
进一步,研究人员通过光照刺激菌丝体,发现紫外光和蓝光能够显著增强电位尖峰的幅值。基于这些电信号,研究人员设计了一个类似海星的柔性步行机器人,利用Arduino单片机将菌丝体产生的电信号转化为PWM波形,进而控制机器人的运动状态。通过光照调节,机器人能够实现实时运动控制。
AI赋能多领域终端光学创新,国内厂商替代加速未来可期
AI技术推动智能手机、汽车和AR设备等终端光学元件市场需求增长。苹果15系列手机采用潜望式镜头,促进安卓阵营创新。高阶智驾汽车对光学传感器需求增加,AR眼镜技术持续迭代。
光学创新是消费电子升级的关键方向,国产供应链渗透率提升。苹果摄像头技术发展包括多模组、潜望式镜头下沉和像素升级。AI手机渗透率提高,推动高端机型销量增长。
车载光学和XR设备光学产业链迎来增长。高阶智驾车型增加车载摄像头、激光雷达和AR-HUD需求。AR眼镜产业链在显示和交互技术上不断进步。
投资建议关注光学元件核心供应商,如蓝特光学、水晶光电、舜宇光学科技、赛腾股份和高伟电子,它们在手机潜望式摄像头、车载光学元件和AR设备领域有显著优势。
风险提示包括光学技术创新不及预期、高阶智驾渗透率低、AI手机销量低和消费电子景气度下降。
技术细节方面,文章提到苹果15系列手机的潜望式镜头采用“3D传感器位移式光学图像防抖和自动对焦模块”,实现X、Y、Z轴三个方向的位移,提升拍照稳定性。此外,AI技术的应用使得手机摄像头向智能传感器方向发展,能够采集更多光谱信息并快速处理数据。高阶智驾汽车的光学传感器配置需求提升,如L4级别车型单车搭载量接近20个。AR眼镜显示技术以衍射光波导为主,反射光波导虽成像体验更佳但量产困难。AI+AR眼镜通过户外多模态大模型提供精准服务,增强交互直观性和便捷性。
https://mp.weixin.qq.com/s/1ChQOnTCzecP7U1sRaeNhg
AI智能助手8月Web端榜单
量子位智库在2024年8月更新了国内64款AI智能助手的用户数据分析,重点包括用户规模、用户活跃度、使用深度和用户增长。整体来看,Web端月访问总量明显下滑,独立访客数轻微减少,原因可能包括用户行为变化、市场热度下降、垂直领域需求分化及移动端的替代性增强。
具体表现为:豆包AI、百度AI助手、360AI助手等新晋产品表现突出,豆包AI以20%增长率超过通义,进入千万级梯队,百度AI助手和腾讯元宝也进入百万级梯队。老牌产品则下滑严重,部分明星产品下降超过15%。
在用户活跃度方面,独立访客数变化相对小,豆包AI增长30%,其他新产品如百度AI助手也有显著增长。使用深度上,平均访问时长与次数都有所提升,WPS灵犀和创脑表现最佳,特别是创脑的用户月访问次数高达15次。
推特
ReshotAI:AI脸部编辑器,从面部表情开始
我超级激动地推出@ReshotAI了!这是一款AI脸部编辑器,效果超赞!🤯🔥
https://x.com/alexcarliera/status/1832479503731528182
Dotai:一个能够为所有 Cursor AI 项目加速的模板
介绍Dotai:一个能够为所有 @cursor_ai 项目加速的模板。
◆ blueprints:由 @mckaywrigley 提供的技术栈设置指南
◆ plugins:工具集成,例如 http://v0.dev
https://x.com/zbeyens/status/1832345581617926231
Aloha: 全球首次展示能够自主系鞋带或挂T恤的机器人
他们通过大规模训练扩散策略:在Aloha 2机器人上进行了26,000次演示,涵盖5个任务
https://x.com/RemiCadene/status/1832911834208149683
Santiago: 50分钟使用开源模型构建RAG
这是一个50分钟的教程,适合那些想使用开源模型构建他们第一个RAG应用的人。
https://x.com/svpino/status/1832395659380437447
对频率空间中扩散的理解的可视化
扩散通常在前期步骤中生成低频部分,然后在后期步骤中生成高频部分。
https://x.com/nrehiew_/status/1832412663273464152
产品
Marshmallow
Marshmallow 是一个基于人工智能的社交活动平台,通过创建线下聚会来促进人们之间的真实连接。用户可以根据共同兴趣创建或加入活动,平台利用大型语言模型(LLMs)和图神经网络(GNNs)分析用户的互动,进行匹配,从而提升社交体验。该平台强调通过个性化的聚会和丰富的用户资料,帮助人们找到志同道合的朋友。
https://marshmallow.lol/
Caption Kit
CaptionKit 是一款 iOS 应用,基于 AI 可以快速生成视频字幕,具有多种模板、字体和自定义选项,支持100多种语言翻译。CaptionKit 的目标是帮助用户提升社交媒体视频的可达性,因为很大一部分人在观看视频时是会调低声音的。这个应用程序的第一版刚刚推出,未来还将推出更多功能,如合并和拆分字幕、手动调整字词时长、自动增强音频等。
https://apps.apple.com/us/app/captions-for-video-caption-kit/id6502188533
— END —
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/13036.html