🧠 模型發佈/更新
1. Claude Sonnet 5 發佈
Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具備計劃、瀏覽器和終端工具使用能力,可自主運行。性能接近 Opus 4.8,定價更低:即日起至 2026 年 8 月 31 日,輸入 token 10/百萬,之後恢復為 15/百萬輸出。相比 Sonnet 4.6,在推理、工具使用、編程和知識工作等智能體能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 評測中嚴格優於 Sonnet 4.6。安全評估顯示不良行為率更低,幻覺和諂媚減少,但網絡安全能力弱於 Opus 4.8。即日起在所有套餐及 Claude Code、Claude …
TIP來源:Anthropic:Newsroom(網頁)
2. Google DeepMind 發佈 Nano Banana 2 Lite 和 Gemini Omni Flash
Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),為 Nano Banana 系列速度最快、成本最低的圖像模型,文本到圖像輸出僅需 4 秒,每 1K 分辨率圖像成本 0.10/秒,面向開發者開放 API。
TIP來源:Google DeepMind:Blog(RSS)
3. 美團 LongCat 發佈旗艦模型 LongCat-2.0
美團 LongCat 推出旗艦模型 LongCat-2.0,採用 1.6T 參數 MoE 架構(約 48B 活躍參數),原生支持 1M 上下文窗口。定價為 Input Cache 0.75/1M tokens、Output $2.95/1M tokens。模型專為 Agentic Coding 設計,包含三大技術:LSA 稀疏注意力實現高效 1M 擴展;Zero-Compute Experts 動態激活 33B–56B 參數/token,無算力浪費;MOPD 將專家分為 Agent / Reasoning / Interaction 三組,按任務門控路由。在 SWE-bench Pro…
TIP來源:X:硅基流動 SiliconFlow (@SiliconFlowAI)
🚀 產品發佈/更新
4. X(Twitter)發佈 hosted X MCP,AI 智能體可直連 X API
X(Twitter)官方推出 hosted X MCP,AI 智能體可通過 MCP 協議直接調用 X API 獲取實時信息,支持 Grok、Cursor 等工具。用戶需註冊 X API 並按量付費,個人優惠價每次調用 0.01 美元(1 美元 1000 次)。有用戶實測拉取近三天書籤僅花 0.1 美元。配置步驟:創建 APP 並充值、獲取配置 ID、輔助配置(可交給 Codex/Claude)、授權啟動。
TIP來源:X:歸藏 (@op7418)
5. 用 shot-scraper video 讓 AI 智能體錄製工作演示視頻
shot-scraper 1.10 新增 shot-scraper video 命令,支持通過 storyboard.yml 文件定義操作步驟,並利用 Playwright 錄製瀏覽器視頻。演示視頻展示了 Datasette 中從粘貼的 CSV/TSV/JSON 數據創建新表的功能。該功能依賴 Playwright 1.61.0 新增的 screencast 機制,解決了此前視頻開頭白幀、寬度固定 800px 等問題。開發者 Simon Willison 強調,將 —help 輸出設計得足夠詳細,可使編碼 Agent 直接利用該命令生成演示視頻。
TIP來源:Simon Willison 博客
6. Acti 將 AI 智能體直接放入手機鍵盤
新加坡初創公司 Acti 發佈基於 Google Gemini 的智能體鍵盤,可代替用戶在應用中執行操作。核心功能 Skills 允許用自然語言創建快捷方式,如長按 T 鍵翻譯消息、C 鍵發送會議鏈接。早期測試者兩週內創建超 1000 個 Skills。採用本地優先架構,默認不訪問私人消息。公司獲 530 萬美元種子輪融資,由 BITKRAFT Ventures 領投,現已開放下載。
TIP來源:TechCrunch:AI(RSS)
7. AI News Radar 大更新:新增自媒體板塊,支持訂閱多平臺賬號
AI News Radar 迎來大更新,新增自媒體板塊,支持訂閱某書、某音、某站、某X等平臺賬號,每日按熱度推薦 Top10 信息(無熱門則不硬湊),同時保留時間軸視圖,可在熱度優先和時間優先間切換。官方來源包括 OpenAI、Anthropic、Google 等一手消息及 GitHub AI&ML 更新日誌。信息流按來源、類型、信號等級分類,標註高優先級與多源認證。項目完全開源,可零 API 部署獨立 AI 日報頁面,支持手機移動端及暗色界面。
TIP來源:公眾號:卡爾的AI沃茨
8. NotebookLM Short Video Overviews 全量上線 Web 英文版
NotebookLM 正式向 Web 英文用戶全量推出 Short Video Overviews(短視頻概覽)功能。該功能可將複雜資料自動轉化為 60 秒豎屏視頻,深入講解任意概念。此前,這一功能已面向 Google AI Ultra 和 Pro 訂閱者(移動端及 Web)推出,免費用戶即將可用。
TIP來源:X:NotebookLM (@NotebookLM)
9. ADK Go 2.0 發佈:構建可靠的多智能體應用,新增基於圖的工作流引擎、人工參與循環與動態編排
Agent Development Kit (ADK) for Go 2.0 發佈,引入了一類基於圖的工作流引擎,用於組合複雜多智能體應用。新版本內置人工參與循環(HITL)編排、使用純 Go 代碼的動態執行、以及指數退避重試等自動彈性特性。統一執行模型後,單智能體應用與複雜圖均運行在同一運行時上,簡化了遙測與狀態持久化。
TIP來源:Google Developers Blog(RSS)
10. Claude Desktop 推出 Linux 公測版
Claude Desktop 現已在 Linux(Ubuntu 和 Debian)上推出測試版。 除了瀏覽器和終端,你現在可以在所有付費計劃中獲得一流的桌面體驗,包括 Claude Code、Claude Cowork 和聊天。
TIP來源:X:Claude Devs (@ClaudeDevs)
11. Claude Science 科研工作臺正式上線
Anthropic 推出 AI 科研工作臺 Claude Science,整合常用工具與計算資源,支持從文獻分析到多步驟研究的全流程。提供超 60 項預配置技能與連接器,覆蓋基因組學、單細胞、蛋白質組學、結構生物學、化學信息學等領域;可在macOS/Linux本地運行,或通過SSH/HPC遠程使用。生成含代碼和環境的可審計成果(3D蛋白質結構、基因組瀏覽器軌跡等),內置reviewer agent自動檢查引用與計算錯誤。通過NVIDIA BioNeMo接入Evo 2、Boltz-2等模型,也支持連接自有模型與管道。今日以beta版面向Claude Pro、Max、Team和Enterprise用戶開放。
TIP來源:Anthropic:Newsroom(網頁)
🏛️ 行業動態
12. 特斯拉Cybercab量產版在奧斯汀啟動公開道路工程測試
2026年6月30日,特斯拉在奧斯汀公共道路啟動首批量產版Cybercab工程測試。車輛無方向盤與腳踏板,配有安全監督員,馬斯克發佈實拍視頻。從2024年10月概念車首秀到實車上路約20個月。目前不對外開放乘客,投入34臺Cybercab在市中心驗證硬件可靠性。Cybercab為雙座車型,完全圍繞無人駕駛打造,無後期改裝。此前奧斯汀已有無安全員Model Y無人駕駛出租於1月啟用、6月22日開放付費服務。
TIP來源:IT之家(RSS)
13. 商務部解除Claude Fable 5等出口管制
我們已收到通知,商務部已解除對 Claude Fable 5 和 Mythos 5 的出口管制。 我們明天將開始恢復訪問,並很快分享最新進展。 我們感謝用戶的耐心,也感謝所有與我們合作重新部署模型的各位。
TIP來源:X:Anthropic (@AnthropicAI)
14. Meta秘密測試ChatGPT等競品:承包商假扮未成年發送數萬條危機提示
Meta通過承包商Covelen發起代號“Cannes”的項目,僱傭數百人假扮未成年人,向ChatGPT、Gemini和Character.AI發送關於自殺、自殘、飲食障礙和毒品的敏感提示,並將回覆錄入表格。2025年8月一輪測試中發送了超過4.5萬條提示。Meta稱這是行業標準安全測試,未將數據用於訓練自家模型。被測試公司不知情——Character.AI表示違反其服務條款,OpenAI已調查,Google稱未批准。青少年使用AI聊天機器人引發的擔憂持續,此前已有用戶自殺事件。
TIP來源:The Decoder:AI News(RSS)
15. 黑石未來3~5年擬投300億美元在日本建AI數據中心,聯合成立AI XPV平臺
黑石計劃未來3~5年在日本AI數據中心領域投資300億美元,此前的500MW基礎上新增超1GW容量。黑石總裁認為AI投資仍處早期,真正風險是算力短缺而非基建泡沫;谷歌、亞馬遜是英偉達潛在挑戰者。此外,黑石、阿波羅、博通本月9日成立AI XPV平臺,目標2028年向OpenAI、Anthropic等提供超20GW算力,首期350億美元支持Anthropic在Fluidstack數據中心部署1GW基礎設施。
TIP來源:IT之家(RSS)
📄 論文研究
16. AI 用 prover-verifier LLM 循環攻克 9 個未解數學難題
AI Safety Memes 推文指出,AI 剛剛解決了 9 個未解決的數學問題,但全球沒有記者報道。引用 @WeinsteinOmri 的推文稱,採用“prover-verifier”LLM 循環的方法,成功解決了理論計算機科學中 9 個重大開放問題,其中包括一個困擾其長達 2 年的難題。該研究由哥倫比亞大學合作者完成,並計劃將這一方法擴展到所有科學領域。
TIP來源:X:AI Safety Memes (@AISafetyMemes)
17. OpenAI 發佈 GeneBench-Pro:計算生物學研究級基準測試
OpenAI 發佈 GeneBench-Pro,用於評估 AI 智能體在計算生物學中處理模糊性和做出判斷性分析的能力。該基準包含 129 個問題,覆蓋統計遺傳學、群體遺傳學等 10 個領域 21 個子領域。每個問題提供真實混亂的數據集和實驗背景,要求模型探索數據、選擇分析路徑並迭代實驗。採用合成數據構建,已知完整因果結構。82 個問題已由外部領域專家審核確認其現實性。
TIP來源:OpenAI:官網動態(RSS · 排除企業/客戶案例)
18. Anthropic 提出回合平均稀疏自編碼器 (Turn-Averaged SAE)
Anthropic 對每個對話回合所有 token 的殘差流取平均後訓練 SAE,大幅減少需解析的特徵數量。實驗使用 Qwen-2.5-7B-Instruct 和 LMSYS-Chat-1M 數據集,回合平均特徵更關注模型行為的高層特性(如錯誤答案),每 token SAE 側重數值推理等細節。Sonnet 4.6 評測顯示:回合平均 SAE 在從 10 個回合中唯一識別目標(區分度)為 74%,低於每 token SAE 的 95%;但在全面描述回合(覆蓋度)上以 77% 勝出。該方法可外推至訓練平均長度 150 倍長的回合。
TIP來源:Anthropic:Transformer Circuits(可解釋性研究)
💡 技巧與觀點
19. 一個人管理5款產品,80%時間不寫代碼?Every的複利工程
媒體軟件公司Every公開「複利工程」方法論,以單人工程團隊維護5款產品。核心是四步循環:Plan→Work→Review→Compound,其中Compound將每次解決問題的解法寫入CLAUDE.md和docs/solutions/,使AI下次自動避坑。工程師80%時間花在Plan和Review,僅20%用於寫代碼。配套開源插件支持Claude Code等,含26個專項agent、23條工作流命令、13項技能,可零配置使用。/workflows
TIP來源:X:小互 (@xiaohu)
20. Claude Code 入門:智能體循環
Claude Code 團隊將智能體循環定義為 agent 重複工作直到滿足停止條件的過程,並劃分出四種主要類型:turn-based 循環(用戶提示觸發,Claude 自行判斷完成或需更多上下文)、goal-based 循環(通過 /goal 命令設定可驗證完成標準與最大輪次)、time-based 循環(通過 /loop 按時間間隔重複執行,可用 /schedule 移至雲端)、以及 proactive 循環(基於事件或計劃自動運行,無人實時參與)。文章還介紹瞭如何編寫 SKILL.md 文件將人工驗證步驟編碼,讓 Claude 進行端到端自檢,減少 turn-based 循環中的手動操作。
TIP來源:Claude:Blog(網頁)
21. AI就業爭論變得更加混亂
截至2026年5月,AI相關裁員接近9萬個,預計未來五年美國最多15%的崗位將被AI替代。但Ramp與Revelio Labs對近22,000家公司的報告發現,高AI投入企業(前三個月人均月均支出30美元)總員工數增長10.2%,入門級崗位增長12%。報告認為AI並非普遍導致崗位消失,而是在資源充裕的科技企業裡成為擴張工具——降低工程、銷售、客服等職能的生產成本,從而推動整體增員。但僅購買訂閱而未持續投入的公司未見人頭增長,可能加劇企業間的資源鴻溝。
TIP來源:TechCrunch:AI(RSS)
22. 具身智能數據採集員:日薪200元起,給機器人當老師
具身智能數據採集員以日薪200-250元招兼職,無需學歷經驗。面試先測量身高體重以適配採集手套,並詢問是否暈VR。工作分兩種:遙操作採集——穿戴設備控制雙臂機器人完成分揀積木、疊紙杯等動作;無機器人示教採集——徒手重複動作(如疊衣服),設備記錄軌跡。全球高質量物理交互數據截至2026年初僅約50萬小時,不足大語言模型訓練數據的兩萬分之一,需大量人力從零採集。
TIP來源:公眾號:數字生命卡茲克
23. OpenAI Signals 數據揭示 ChatGPT 全球採用趨勢
OpenAI Signals 數據顯示,用戶註冊六個月後日均消息量增加50%,嘗試任務種類翻倍。自2023年7月以來,各大洲活躍用戶均大幅增長,非洲和亞洲增速最快,低人類發展指數國家增長尤為顯著。用戶群體更加多元化,女性名字用戶已佔全球多數,巴西、哥倫比亞、波蘭和納米比亞等國女性用戶顯著多於男性。非英語用戶佔活躍用戶半數以上,領先語言為西班牙語、葡萄牙語和阿拉伯語;烏茲別克語、哈薩克語和緬甸語用戶佔比增長百分比最大。
TIP來源:OpenAI:官網動態(RSS · 排除企業/客戶案例)
24. Grant Sanderson 談 AI 與數學的未來
3Blue1Brown 創辦人 Grant Sanderson 正在製作記錄 AI 在數學領域進展的新項目。他在與 Dwarkesh Patel 的對談中指出,AI 在 IMO 獲金牌並不等於 AGI,只是又一個被攻克的基準。即使 AI 未來解決千禧年大獎難題,仍可能存在大量人類任務無法被自動化。對話還探討了概念突破驗證週期可長達一個世紀、Riemann 假設的 AI 證明能否被人類理解、AI 能否在已有文獻間發現隱藏聯繫,以及現實經濟任務難以套用強化學習環境等話題。
TIP來源:Dwarkesh Patel:Podcast & Blog(RSS)
25. 英國職場AI採用率翻倍,僅15%“AI先鋒”獲得晉升加薪優勢
Google UK與Public First研究發現,英國職場AI採用率一年內從34%升至73%,但呈不均衡曲線。僅15%的“AI Trailblazers”(深度用戶)晉升概率高84%、績效高88%、加薪概率高55%,每週節省近8小時。其餘85%仍處於旁觀、實驗或實踐階段。阻礙因素包括:一次即棄的提示詞習慣、搜索框思維、缺乏明確使用許可。Public First推出AI技能測驗,Google的“AI Works for Britain”計劃支持2030年前培訓1000萬工人AI技能的目標。
TIP來源:Google Blog:AI(RSS)
26. 專業化為何不可避免
Dharma AI 團隊引述 Goldfeder、Wyder、LeCun 和 Shwartz-Ziv 於 2026 年發表的論文,從優化理論、生物學和競爭市場論證專業化的必然性。Wolpert-Macready 無免費午餐定理表明,通用優化算法在所有問題上平均表現相同,實際優勢來自專門適配;有限資源下,集中資源於有限任務集的系統必然優於平均分配的通用系統。生物學中的特化權衡與市場競爭也指向同一結論:最大化適應性在於精確擬合特定環境,而非追求通用性。
TIP來源:Hugging Face:Blog(RSS)