大模型日报（9月12日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

Reader-LM：用于清理和转换HTML为Markdown的小型语言模型

Jina AI 推出了两款小型语言模型（SLM），Reader-LM-0.5B 和 Reader-LM-1.5B，专门用于从嘈杂的HTML中提取并生成干净的Markdown。这些模型有效地替代了传统的Readability和Turndown库，通过直接从HTML生成Markdown，解决了噪声过滤和标记转换的问题。与大模型相比，这些SLM更具成本效益，同时支持长达256K的上下文长度。

任务：模型的主要任务是选择性复制HTML内容到Markdown，跳过不必要的HTML标记（如导航栏、侧边栏等），并转换为相应的Markdown语法。
性能：Reader-LM在多个维度的性能表现优异，包括内容提取、Markdown语法使用和文档结构保留，甚至在某些方面超越了更大的语言模型。
多语言支持：模型支持多种语言，适用于从新闻文章到电子商务页面等多种类型的网页内容转换。
应用场景：这些模型已经集成到Google Colab和云平台（如Azure和AWS），用户可以通过这些平台轻松体验和使用Reader-LM进行HTML到Markdown的转换。

长上下文支持：可以处理长达256K tokens的上下文，适合处理包含大量噪声的现代HTML。
高效性：相比于传统方法，Reader-LM在准确性和效率上都有所提升，尤其在结构保留和格式转换方面表现出色。
小模型大用处：尽管参数量较小，Reader-LM仍能高效完成复杂的HTML到Markdown转换任务，且大大减少了推理时间和计算资源消耗。

https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/?nocache=1

Arcee-SuperNova：70B参数旗舰模型，OpenAI替代方案

Arcee-SuperNova是Arcee AI推出的旗舰70B模型，作为OpenAI迁移计划的一部分，专注于指令跟随能力和与人类偏好的高度对齐。通过使用开源工具和创新的后训练技术，Arcee-SuperNova在性能和人类偏好得分上表现出色，并且为企业提供了灵活、安全的部署选择。

核心内容：

模型结构：Arcee-SuperNova由Llama-3.1-405B-Instruct的蒸馏版本构建，使用自研的DistillKit工具，保证模型在缩减参数量的同时，保留了指令跟随能力。
多模型融合：最终模型结合了三种训练方法，包括指令优化模型和人类偏好优化模型，确保了性能和人类偏好的双重提升。
性能表现：模型在多个基准测试中表现优异，特别是在数学查询、推理和知识检索方面，优于其他70B模型。其人类偏好得分接近405B-Instruct模型，大幅提升了用户体验。

部署和客户集成：

数据隐私：SuperNova的一个显著优势是完全在客户的私有环境中托管，保证数据隐私。客户拥有模型权重，且所有更新都需客户同意。
灵活性和定制化：支持通过人类反馈强化学习（RLHF）对模型进行持续训练，使其更符合客户的业务需求。企业还可以根据特定任务对模型进行定制训练，确保其在关键任务上的卓越表现。

https://blog.arcee.ai/meet-arcee-supernova-our-flagship-70b-model-alternative-to-openai/

机房锂电池火灾致阿里字节服务瘫痪，超 30 小时灭火仍未结束

2024年9月10日，阿里云位于新加坡可用区C的数据中心发生火灾，起因是锂电池爆炸，火灾持续超过30小时，导致主要科技公司服务中断。受影响的关键云产品包括Redis、MongoDB、RDS MySQL、OSS、OTS和MaxCompute。阿里云表示，部分服务已恢复，但仍有业务因机房断电未恢复。Lazada、TikTok Shop等平台因系统故障影响订单同步，用户反馈服务中断。消防员持续进行灭火，火灾引发的安全隐患增加了救援难度。

https://mp.weixin.qq.com/s/pYCVlNB4QnZBy1t250rvLw

字节Loopy、CyberHost研究成果

字节跳动近期推出的视频生成模型Loopy引发广泛关注。Loopy基于Diffusion视频生成框架，能够通过输入一张图片和音频生成高保真的肖像视频，展现出呼吸、叹气等自然动作和情绪细节。Loopy引入了inter/intra-clip temporal layers模块，用以捕捉跨时间片段及单片段内的时序信息，并通过Temporal Segment Module强化对长时运动的捕捉。音频驱动生成时，Loopy使用了A2L模块，将音频、表情和运动参数转化为motion latents，实现细腻自然的人像表情生成。

此外，字节跳动还推出了半身人像生成模型CyberHost，其通过Codebook Attention模块强化了对人脸和手部的结构先验学习，解决了纯音频驱动下手部动作生成的难题。通过Body Movement Map和Hand Clarity Score等机制，CyberHost进一步提升了人体和手部动作生成的质量。

https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

推特

Shawn Wang分享MistralAI 峰会现场笔记：前沿AI就在你手中

Shawn Wang 在他的博客中记录了他参加 MistralAI 峰会的现场笔记，该峰会由 Jensen Huang 和 Arthur Mensch 以及团队成员出席。他提到这是 Mistral 平台愿景的首次阐述，超越了简单的 Mistral 模型托管服务。

Shawn Wang 还指出，他曾见过类似于 Mistral 模型优先级的图表，但这次的图表是公开的。他介绍了 Guillaume Lample 对当前 Mistral 模型套件的看法，特别提到 Large 2 模型在代码任务上的表现优于 L3 405b 模型。尽管如此，由于不是开源的，选择使用它的理由并不明确。

Shawn Wang 还提到 Pixtral 12B 模型的亮点，该模型支持任意大小的图片和任意长度的任务序列，并在多种基准测试中表现优于封闭模型，例如 Phi 3、Qwen VL、Claude Haiku 和 LLaVA。

https://x.com/swyx/status/1833926630861070359

同理心语音接口2：全新的语音到语音基础模型

介绍同理心语音接口2（EVI 2），我们全新的语音到语音基础模型。EVI 2将语言和语音合并为一个专门为情感智能训练的模型。

你可以立即试用并开始构建。

https://x.com/hume_ai/status/1833906262351974483

Fish Speech 1.4：开源文本转语音模型

全新开源的文本转语音模型：Fish Speech 1.4 非常出色！

基于 70 万小时的多语言语音数据训练，支持 8 种语言

即时语音克隆 🗣️
超低延迟 ⚡
紧凑模型（~1GB 权重） 🏋️♂️

https://x.com/rohanpaul_ai/status/1834030861605384241

Midjourney正在开发一个3D系统，允许用户进入 Midjourney 图片中

Midjourney 办公时间：他们正在开发一个3D系统，允许用户进入 Midjourney 图片中。不是多边形，也不是 NeRF，也不是高斯技术，而是一种类似 NeRF 的新格式。该项目由在 NeRF 技术推广中扮演重要角色的团队负责人带领。抱歉多边形，但大多数 Midjourney 图片已经比今天的大多数游戏更好看了。

同意关于多边形的看法……希望几年后它们会成为过去。

如果领导 Midjourney 新3D格式项目的人不是 Alex Evans，我会非常失望 ;-)

看看这个小视频，想象一下，Dreams 图形引擎的很大一部分是由于 Alex Evans 的工作。

https://x.com/MartinNebelong/status/1833961448734699989

产品

Serra

Serra 是一个基于 AI 的招聘搜索引擎，允许招聘人员通过自然语言输入搜索条件，快速找到合适的人才。它从 LinkedIn、Indeed 和 GitHub 等平台整合约 10 亿候选人数据，自动生成关键词并展示最佳匹配的候选人，可以帮助提高招聘效率。

https://cloud.serra.io/

Replit Agent

Replit Agent 是一个 AI 驱动的工具，可以帮助用户通过自然语言提示轻松构建软件项目。它支持编写代码、设置环境和管理部署，可以提升开发者的创造力，使软件开发对所有技能水平的用户更加友好。

https://docs.replit.com/

投融资

Trieve完成350万美元融资，推动AI搜索与生成式问答技术发展

2024年9月11日，Trieve宣布完成超额认购的350万美元融资，由Root Ventures领投，其他投资者包括Y Combinator、Soma Capital、Kulveer Taggar、Transpose Platform，以及一批知名的战略天使投资人，如JJ Fliegelman、Richard Aberman、Rajiv Ayyangar、Jenny Fleiss和Rohan Das。Trieve由Myself和Denzell Ford创立，旨在为AI应用开发提供定制化基础设施。

本轮融资将用于增强销售策略和提升客户成功率，Trieve的客户已涵盖电商、ERP系统、社交媒体平台等多个行业，目前包括Mintlify、BillTrack50和AmLaw100律所的客户，Trieve已支持超过16,000个搜索栏。

领投方Root Ventures的合伙人Lee Edwards指出，Trieve正在通过AI驱动的搜索和生成式问答（RAG）技术，改善应用内的搜索体验，推动产品搜索功能的提升。