我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

潜空间活动报名

本期活动将在11月9日 10:00开始，我们邀请到的嘉宾是鱼哲，Lepton AI 创始成员，曾在阿里云担任高性能 AI 平台产品负责人，专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施，让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考，分享主题《Beyond Infra，What matters？—— 不同AI产品形态对团队的挑战》。除嘉宾分享外，每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流，将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启，欢迎扫描下方二维码报名。

资讯

腾讯3D大模型全面开源，文本图像10秒转3D资产，模型权重、推理代码全开放

3D生成开源界首个同时支持文字、图像转3D的模型来了，效果还是SOTA级别。

就在刚刚，腾讯宣布推出Hunyuan3D-1.0，一口气开源轻量版和标准版两个模型。

最快10秒就能端到端生成。

先生成6个多视角图像，再进行多视角重建，“啪”的一下360度无死角的3D资产就造出来了。

‍https://mp.weixin.qq.com/s/DsfIOj6qzDuYd3bU_Zmn0A

2024科学智能峰会在海淀举办

2024科学智能峰会于11月4日在北京海淀举行，吸引了多个领域的专家分享AI在科学研究和产业应用中的最新进展，特别是在物理、化学、材料研究和生命科学等领域的突破。论坛深入探讨了AI如何改造研究模式，提升研发效率和准确性。例如，北京大学张锦院士强调，AI可以通过自动化平台和开源模型，加速材料研究，特别是碳材料的催化剂发现和性能定制，缩短研发周期。复旦大学龚新高院士则讨论了AI在生命科学中的应用，提出需要通过构建跨层次的生物学大模型来发现新的科学原理和生物技术。

论坛还突出了AI基础设施的重要性，北京科学智能研究院张林峰院长提出，AI不仅推动科学研究的进展，还需要强大的基础设施支持，如算力和数据资源的优化配置，才能助力产业应用的广泛落地。在这一背景下，海淀区通过政策创新，为AI企业提供了支持，特别是在算力建设和大模型开发方面，逐步形成了一个产业集群。

海淀区近年来实施了多项政策，如对大模型算力的补贴计划，最高可提供1000万元资金支持。这些政策目标是推动AI技术在各行业的深度应用，推动产业升级，并力争到2026年成为全球具身智能和AI创新的核心基地。海淀区的战略包括建设AI产业高地，吸引顶尖企业和科研机构，如百度和旷视，汇聚了大量AI人才和科研资源，形成了强大的创新生态。

https://mp.weixin.qq.com/s/ait29Uun7FMy7GMr3DQSyQ

ControlNet作者新作：AI打光玩得更溜了！细节保留能力远高于SD1.5

IC-Light V2是“敏神”（张吕敏）开发的图像处理工具，旨在通过AI技术精确控制图像中的光照效果。相比于之前版本，IC-Light V2在训练方法上进行了改进，采用了基于FLUX的架构，拥有16通道VAE和原生高分辨率。这使得它能够在保持细节的同时，进行更自然的光照调节。

例如，用户输入一张照片并提供提示词“flicker 2008 photo of a woman, neon light, city, cars and people in the background”后，生成的效果几乎没有违和感，细节保存得非常好。IC-Light V2在人物细节保留和光照效果上比SD1.5更为出色。

此外，IC-Light V2在处理带有艺术风格的图片时也表现出色。与基于SD1.5的版本不同，IC-Light V2能够更好地保留风格细节，例如处理超现实主义风格的图像时，AI能够更准确地生成符合提示的风格，而不会忽视风格要求。

目前，IC-Light V2已经上线HuggingFace平台，用户可以在线体验其效果。该工具目前包括一个前景条件模型，强调保留输入图像的细节。未来还将推出更多版本，包括支持更大修改的前景模型、集成背景和HDRI的模型等。

尽管当前模型仅在HuggingFace提供体验，但敏神表示，未来将发布更多的推理代码和权重。然而，与V1版本不同，新版本的许可证仅限于非商业用途。

https://mp.weixin.qq.com/s/MhxtxG77OH2y‍qdTyaW2NPA

无需参数访问！CMU用大模型自动优化视觉语言提示词

卡内基梅隆大学（CMU）研究团队提出了一种创新的“黑盒优化”策略，旨在通过大语言模型（如ChatGPT）自动调整提示词，优化视觉语言模型（如DALL-E 3、GPT-4o）的表现。这一方法无需触及模型内部的参数或特征嵌入，大大提高了优化的灵活性与速度，适合没有技术背景的用户进行模型性能提升。

传统的提示词优化依赖人工经验，且需根据模型反馈反复调整，费时费力。例如，OpenAI曾花费一年时间优化CLIP模型的提示词模板。而CMU团队的黑盒优化方法，通过自动化流程将正负反馈输入大语言模型，以更高效地优化提示词。优化过程类似“爬山法”，通过多轮迭代逐步改进提示词，最终得到最佳表现的提示词。

实验结果表明，CMU团队的方法在多个视觉识别任务中，取得了超越传统白盒优化的表现，并且无需人类工程师参与。在不同模型架构（如ResNet和ViT）之间，优化得到的提示词能够有效泛化，提升模型表现。例如，在食物识别任务中，ChatGPT自动调整提示词为“多样化的美食和原料”，显著提高了识别准确性。

该方法也在文本到图像生成（T2I）任务中表现出色，能够通过自动优化提示词生成更符合用户需求的高质量图像。同时，提示反演（Prompt Inversion）技术也得到了应用，帮助用户通过图像生成反向推测出合适的文本提示词。

CMU团队的黑盒优化方法打破了传统模型调优的限制，不仅适用于图像分类和生成任务，还展现了广泛的应用潜力。通过“文本梯度”优化，无需访问模型内部参数，具备强大的扩展性。这一策略可能在实时监控、自动驾驶、智能医疗等复杂场景中带来更高效的解决方案。

研究团队包括刘士弘（Shihong Liu）、林之秋（Zhiqiu Lin）和Deva Ramanan教授等，他们的工作已被CVPR 2024接收，并展示了黑盒优化在多模态模型调优中的应用前景。

https://mp.weixin.qq.com/s/CRwLHAWKHSTEe8flVLKUsA

Meta前硬件负责人Caitlin Kalinowski加盟OpenAI，领导机器人和消费硬件领域

Caitlin Kalinowski，前Meta增强现实眼镜项目负责人，近日宣布加入OpenAI，担任机器人和消费硬件的负责人。Kalinowski在Meta的工作包括领导Orion增强现实原型的开发，以及领导虚拟现实眼镜硬件团队近九年。在此之前，她曾在苹果公司设计MacBook硬件。

Kalinowski在LinkedIn上表示：“我非常高兴地宣布加入OpenAI，领导机器人和消费硬件工作。在我的新角色中，我将首先聚焦OpenAI的机器人项目和合作伙伴关系，推动AI技术进入物理世界，释放其对人类的益处。”

她的加入可能与她曾在苹果工作的旧上司Jony Ive密切相关。Ive近期确认与OpenAI和其设计公司LoveFrom共同开发一款AI硬件产品，旨在提供比iPhone更少社会干扰的计算体验。

此外，OpenAI近期也在招聘研究工程师，重启其机器人团队，专注于帮助合作伙伴将OpenAI的多模态AI集成到硬件中。OpenAI此前曾在2018年开发了一款能够独立学习抓取物体的机器人手，之后将硬件研究转向软件。

目前，已有多家公司将OpenAI的模型应用于硬件领域，包括苹果公司将推出与iPhone的ChatGPT集成，以及机器人公司Figure，其人形机器人01已利用OpenAI的软件进行自然语言对话。

https://techcrunch.com/2024/11/04/metas-former-hardware-lead-for-orion-is-joining-openai/

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

xAI API公开上线：每月25美元免费额度，128k 令牌上下文

xAI 的 API 已上线！- 立即试用 @ http://console.x.ai

• 128k 令牌上下文

• 支持函数调用

• 支持自定义系统提示词

• 兼容 OpenAI & Anthropic SDKs

• 直到年底，每月免费获得 $25 的额度

http://x.ai/api

您现在每月拥有 $25 的免费 API 额度，直到年底。

如果您已经购买了额度，您将获得相应数量的额外免费额度。

https://x.com/xai/status/1853505214181232828

Claude 3.5 Haiku上线：迄今为止最快、最智能且具成本效益的模型

Claude 3.5 Haiku 现已在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上线。

Claude 3.5 Haiku 是我们迄今为止最快、最智能且具成本效益的模型。它的特别之处在于：

https://x.com/alexalbert__/status/1853498517094072783

全新Hume App推出：引入全新助手，结合语音语言模型 EVI 2 生成的声音和个性

全新 Hume App 重磅推出

引入了全新的助手，这些助手结合了我们的语音语言模型 EVI 2 生成的声音和个性，并整合了新款 Claude 3.5 Haiku 等补充性大型语言模型和工具（来自 @AnthropicAI）。

https://x.com/hume_ai/status/1853540362599719025

KOL线上求助AI代理，评论区立马构建：自动化 AI 系统，用于分析 AI 案例研究

我想运行 AI 代理来抓取特定 URL 并进行数据提取，直到找到某种特定信息。就像一个 AI 调查员一样。

有哪些框架可以实现这种尖端功能？有没有我们应该使用的 AI 代理项目？

我已经为你构建好了！

这是一个自动化 AI 系统，用于分析 AI 案例研究（可以更换使用场景），以识别和记录企业级 AI 实施。

它从读取 CSV 文件中的 URL 开始，使用网页抓取（通过 WebLoader 或 Firecrawl）从每个案例研究中提取内容。

提取的内容会发送给 Claude 3.5 Sonnet，基于特定标准（如公司成熟度、实施规模和可衡量的业务成果）分析该案例是否是真正的企业级 AI 实施。

对于每个 URL，系统首先保存原始内容，然后执行初步的资格分析。

如果 Claude 判断案例符合企业级 AI 实施的标准，系统将生成详细分析，包括三种报告类型：

• 个别案例报告，包含执行摘要、AI 战略分析和业务影响评估等部分

• 多个案例的跨案例分析，识别模式和趋势

• 执行仪表板，汇总关键指标和见解

所有这些报告以结构化格式保存（个别报告为 markdown，跨案例分析和仪表板为 JSON）在各自的目录中。

如果某个案例不符合企业级 AI 实施的标准，系统会记录原因并转向下一个 URL。整个过程是异步的，并在终端提供关于进展和决策的详细反馈。

https://x.com/elder_plinius/status/1852690065698250878

OuteTTS-0.1-350M – 零样本语音克隆，基于 LLaMa 架构，CC-BY 许可

Smol TTS 模型来了！OuteTTS-0.1-350M – 零样本语音克隆，基于 LLaMa 架构，CC-BY 许可！🔥

纯语言建模方法实现 TTS

零样本语音克隆

LLaMa 架构结合音频令牌（WavTokenizer）

亮点：支持 llama.cpp 实现设备端运行 ⚡

TTS 三步法：

使用 WavTokenizer 进行音频标记化（每秒 75 个令牌）

CTC 强制对齐，实现文字到音频令牌的映射

使用转录、时长和音频令牌创建结构化提示词

对于仅 350M 参数的模型表现令人印象深刻！向 @OuteAI 团队致敬，这一杰出成果令人赞叹——期待它能应用于更大的数据和更智能的骨干模型，比如 SmolLM 🤗

https://x.com/reach_vb/status/1853475883706614232

BLENDERGPT：生成 3D 资产并无缝导入 Blender 的最快方式，文本转 3D 仅需约 20 秒

推出 BLENDERGPT —— 生成 3D 资产并无缝导入 Blender 的最快方式。

文本转 3D 仅需约 20 秒。

访问 blendergpt dot org。

https://x.com/gd3kr/status/1853645054721606100

产品

Daytona

Daytona是一个提供无缝的云端开发体验的平台，特别是在人工智能编码方面。它允许用户快速访问和使用AI工具，简化开发过程，消除了传统开发中的等待名单和复杂设置。

OpenHands在Daytona平台上推出，无需等待和复杂设置的AI编码工具，用户可以立即访问。该工具允许用户修改和调试代码、浏览网络、调用API、运行终端命令，并从StackOverflow复制代码片段。

https://openhands.daytona.io/

FullContext

FullContext是一个基于人工智能的工具，通过自然语言快速构建市场推广工作流程。它提供互动产品演示、资格审核、会议安排等功能，能够识别访客身份并展示相关资源，从而提升销售效率和客户体验。

https://www.fullcontext.ai/

投融资

Spot AI推出首个面向物理世界的视频AI代理，融资近1亿美元

Spot AI宣布推出其创新的视频AI代理，旨在将数字世界中的代理AI能力带入物理世界。这些视频AI代理能够帮助组织即时识别和解决安全、安防和运营中的事件，提升制造业、教育、零售和汽车服务等行业的投资回报率。同时，Spot AI也成功完成了3100万美元的新一轮融资，使其总融资额达到9300万美元。本轮融资由Qualcomm Ventures领投，Scale Venture Partners、StepStone Group、Redpoint Ventures、Bessemer Venture Partners等现有投资者参与。

Spot AI的最新产品——视频AI代理，将传统的视频监控系统从被动的记录转变为主动的解决方案，能够自动识别问题并触发响应，如警报、数据分析、控制设备等。Spot AI目前服务超过1000家客户，覆盖17个行业，处理的录像数据量是YouTube日常上传量的两倍。借助先进的边缘处理技术，Spot AI的视频AI代理可以实现更强大的计算能力，并将高质量视频数据转化为可操作的资源，推动安全性、生产力和营收的提升。

公司官网：https://www.spot.ai/

https://www.spot.ai/blog/spot-ai-introduces-first-video-ai-agents-for-the-physical-world-as-it-nears-100-million-in-funding-to-date

月泉仿生获近亿元Pre-A轮融资

月泉仿生，一家专注于人形机器人研发和产业化的企业，近期成功完成了近亿元的Pre-A轮融资。本轮融资由洪泰基金领投，长兴基金和中关村启航基金跟投，浪潮资本担任独家财务顾问。资金将用于加速人形机器人研发，强化公司的人才和技术壁垒，并推动商业化进程。

月泉仿生主要从事人形机器人本体、核心零部件及仿生智能装备的研发，凭借其联合创始人任雷教授的自主研发技术，公司已实现全链条自研，包括机器人整机结构、核心件及动力系统。目前，月泉仿生在仿生机器人领域拥有超过300项国内外专利，并推出了仿生拉压体灵巧手、机械臂等多个产品，正在研发新一代人形机器人。

在商业化方面，月泉仿生已取得显著进展，2024年，公司已获得数千万元的新增订单，产品成功应用于多个领域。特别是在能源领域，公司与国家电投建立战略合作，将仿生机器人技术应用于无人机和海上风电作业。同时，公司还与防务科技集团合作，推动特种作业机器人在高危环境中的应用，预期未来将拓展至汽车、航空、科研等多个行业。

https://36kr.com/p/3022212992869895

Coatue筹集10亿美元加码AI投资

Coatue Management是一家在疫情期间积极投资科技初创企业的对冲基金，目前正计划筹集10亿美元用于AI领域的投资。根据彭博社的报道，这笔资金将主要来自机构投资者，此外，通过Raymond James和Associates经纪公司账户的高净值个人也有机会参与投资。

Coatue目前管理着接近500亿美元的资产，2021年曾投资超过170家风险投资支持的企业。尽管在随后的两年里，Coatue大幅减少了对初创企业的投资步伐，2022年仅支持了81家公司，2023年更是只有30家公司，但在2024年，Coatue已经投资了29家初创公司。近期，Coatue的AI领域投资包括Glean、Scale AI和Skild AI等公司，其中Skild AI正在开发一款通用型AI机器人。Coatue的创始人Philippe Laffont特别看好AI驱动的类人机器人，并对此充满期待。

Coatue的AI投资将进一步推动该基金在这一新兴领域的布局，并为未来的创新技术提供资本支持。

公司官网：https://www.coatue.com/