
主持人:Kevin Scott,欢迎回到 Decoder 节目。
微软CTO Kevin Scott:非常感谢您的邀请。
主持人:如果算上您在我们早期试点的 Decoder 节目 The Vergecast 播客中的参与,我相信您是我们首位四次做客的嘉宾。你一直是我最喜欢交谈的对象之一,所以对这次对话我很期待。微软有一些关于搜索和网络的消息,这正好是我节目中关注的焦点,因为我看到这一领域正在发生巨大变化。我想和你聊聊,在AI 进入第二个时代的当下,我们学到了什么,以及未来的发展方向——就是些老生常谈的小事。让我们从新闻开始说起。就在今天听众们收听这期节目时,微软在Build 大会上宣布了一种本地搜索网站的新方法。给我们讲讲这是怎么回事。
微软CTO Kevin Scott:与其将其简单定义为搜索,我更倾向于另一种表述。这段时间我一直在思考一个假设——这个观点正不断得到验证:借助过去几年构建的强大新型 AI 模型,我们将迎来由智能代理软件主导的时代。这些代理需要能够代表用户执行任务。我们正突破更多限制,就像你提到的”AI 第二幕”,内部我们将其称为”中场阶段”——意味着不再受限于传统思维框架。虽然在这些代理软件的开发中,我们仍面临某些功能性的制约…
主持人:等等,“功能性受限”这个词有很多种解读方式。最严厉的说法可能是“它目前还不太能用”,稍微温和一点的解释或许是“尚未找到产品市场契合度”。你觉得这到底意味着什么?
微软CTO Kevin Scott:我认为这要看具体情况。从软件开发领域来看,显然已经实现了产品与市场的契合。这类技术已成为人们开发软件不可或缺的方式,比如我们构建的这些软件开发智能体。在这个领域,我们就像是探索智能体软件潜力的早期拓荒者。这并不意外,因为开发者通常会先打造让自身工作更轻松的工具,之后才会考虑为大众创造便利。因此我们在这一领域走得稍远一些,通过构建这些软件工程师智能体,我们发现了要让通用智能体在软件开发之外的领域更有价值所需的一些要素。其中关键的一点是:智能体必须能够访问信息源,必须能够通过改变系统和状态来代表用户执行操作。比如预订酒店房间或安排日程这类事情。我认为真正理想的方式是建立开放协议,实现各类智能代理之间的互操作性——任何拥有服务或内容、希望向代理开放的主体,都能轻松宣告”我在这里”;而无论由谁开发的代理,都能无缝接入这些内容与服务。我们在 Build 大会上将其称为”代理网络”。在这个充满海量代理为用户代劳的世界里,必须建立的基础设施,其重要性堪比二三十年前万维网发展初期必须构建的那些基石。
主持人:这就是所谓的代理网络。我们在节目中已经多次讨论过这个话题。我曾与您的同事Mustafa Suleyman 探讨过代理网络和构建代理的问题。我一直称之为”DoorDash 问题”——虽然我还没想到更贴切的名称,也为未经 DoorDash 公司许可就使用这个名称感到抱歉。这个问题的核心是:当我想吃三明治时,只需对 Bing、ChatGPT 或其他 AI 说”去给我买个三明治,Alexa,去买个三明治”,它就会自动在网络上执行这个任务。目前,大多数智能代理产品会直接打开网站、扫描网页内容、点击浏览页面,然后试图帮我点个三明治。而这些公司普遍的态度是:”别这么干。我们不希望你们这样做。我们会屏蔽这类行为,如果你们规模够小或许能通融,但必须签订商业条款来规范你们将我们的功能整合到自家产品中的方式。”这个问题必须解决。我很好奇你们会如何应对。听起来你们的思路比现有方案高了一个抽象层级——假设商业问题已解决,我们该如何让我的代理能更便捷地与 DoorDash 对话?毕竟靠点击浏览网站从来就不是个好解决方案。
微软CTO Kevin Scott:确实,当前的技术还很脆弱。我认为,解决商业模式问题与技术问题实际上是相辅相成的。这不仅仅是找到技术实现方案,更需要让整个生态系统的激励机制正确对齐,确保各方都能从中受益。如果一个企业希望通过用户代理进行交易,就必须确保这种模式在商业上完全合理可行,企业才会愿意参与其中。你不能仅靠技术手段强行绕过问题,就指望它能持续运作。即便暂时能用某种技术魔法克服技术本身的脆弱性,也必须同时消除商业模式中的脆弱环节。
主持人:这正是当前网络生态中最受威胁的部分——网站运营的基础商业模式:我创建网站,添加一系列结构化数据让搜索引擎能读取内容并在不同分发渠道展示。我可能还会加入 RSS 订阅这种标准化且普遍认可的分发方式。实现途径其实有很多。但当我建立网站时,就等于向各种分发平台开放了内容。作为回报获得的往往不是金钱——几乎在所有情况下都不是。真正得到的是网站访客,然后通过订阅付费、展示广告等方式变现。这个模式已经失效了,对吧?随着答案(尤其是 AI 搜索产品)越来越多地直接呈现,网站流量普遍下降。 这种现象在不断重演 。在智能体主导的新时代,我们为智能体设计了新型结构化数据来访问网站获取答案,那么替代原有商业模式的会是什么?如何确保这种交互具有商业价值?
微软CTO Kevin Scott:我认为我们目前正在通过一些开放性的举措和公告实现的目标之一,就是为智能体访问个人网站提供技术机制,同时这些协议本身将允许您自主决定开放哪些内容及开放方式。以MCP 协议为例—— 这是 Anthropic 开发的革命性协议 ,我们正与 Anthropic 展开深度合作予以支持,整个生态系统中已有大量参与者。OpenAI 正在与其协作,许多从业者已将 MCP 视为智能体网络时代的 HTTP 协议等价物。值得注意的是,MCP 对内容或服务提供商应通过该协议开放哪些资源,或此类访问应采用何种商业模式,始终保持技术中立立场。因此我认为其中的一个好处在于,它为内容或服务提供者创造了自主定义新型商业模式的可能性。比如当用户订阅了你的网站时,是否允许其智能代理访问你的MCP 接口?是否会诞生这样的广告模式:通过免费内容吸引大量代理流量到网站,借助广告实现分发变现,再通过可量化转化效果的交易进行定价。虽然具体商业模式尚不明确,但我确信核心在于必须赋予内容与服务提供方自主决策权——由他们决定开放哪些资源,以及采用何种商业模式来实现价值转化。
主持人:MCP 代表“模型上下文协议”吗?
微软CTO Kevin Scott:没错。
主持人:可以说这是一个新兴标准。当你访问我的网站或服务时,我会告知你能做什么。据我理解,这很像robots.txt 的进化版——更复杂精密,但核心理念相同:你访问时我告知权限范围。微软、OpenAI 和 Anthropic 能单凭技术实力强行推动这个协议吗?还是说其他参与者也都能从中受益?
微软CTO Kevin Scott:
我认为对开发者而言好处巨大。这让我想起几十年前互联网爆发时,我作为年轻开发者的感受——当时我渴望的正是这种无需许可的机制:只需把内容发布到网上,其他人就能以各种创新方式访问。因此,我确实认为MCP 以及我们正在构建的、可能稍后会讨论的基于 MCP 的创新项目——这个名为[自然语言网络]的开放协议集和代码库,能让你无需征得任何人许可,就能自主决定在智能代理网络中公开哪些内容,使你的工作成果可被各类代理访问。你说这是个新兴协议确实没错。最令人惊叹的是当前发展速度之快——人们正飞速采用这种方式来实现内容的代理可访问性。对于内容或服务提供商而言,最具吸引力的莫过于越来越多的用户活动正以智能代理为核心载体。用户交易和注意力将越来越多地流向这个领域。因此,你会希望自己的行为能被智能代理感知,从而触达目标受众。我认为我们将真正进入这样一个模式:代理在异步状态下为你处理事务。当前网络模式中绝大多数交互都是同步发生的——比如你正盯着浏览器,可能想在某个 Shopify 店铺购买工具,全神贯注完成这笔交易后才会转向下一件事。而智能代理的有趣之处在于,当你将任务委托给它后,它会在你注意力分散时异步完成所有操作。
这真是个极其有趣的现象,我认为未来会出现许多现在根本不存在的机会——毕竟人类的注意力是有限的,我能分配给网站的时间就这么多。想象如果有许多智能代理帮我完成各种调研,比如规划暑期度假方案,或者协助我解决在工作室进行的疯狂项目(我正在搭建窑炉来烧制那些即兴创作的陶艺作品)。这些代理能帮我推进事务,这样当我真正投入注意力时,就能立即采取行动,比如直接购物,或者让有限的注意力产生更高质量的价值。对于那些试图在互联网上开展业务的人来说,这种前景简直妙不可言。
主持人:
我们来聊聊你们正在进行的自然语言搜索项目,以及它如何与这个更宏大的愿景相关联。我看了个简短的演示,非常酷对吧?这是个低成本、极易实现的网站自然语言搜索集成方案。我看到的一个演示案例是Tripadvisor,听说他们团队周三才接触这个方案,下周二就已经向公司高层做展示了。这太酷了——低成本、兼容所有模型,可以用 DeepSeek 运行,也能用 OpenAI 的 4o mini 运行。正是这些特性赋予了 MCP 协议的能力,对吧?
你已经用这个工具运行了你的网站,为用户带来了好处。这里有一些自然语言搜索功能,可以通过聊天机器人或自定义界面(如果你想构建一个的话)来实现。但现在你又在网站上添加了这个MCP 模式,让微软 Copilot 智能体能够以某种你可以控制的结构化方式出现并与你的网站互动。这一切都非常酷。我也理解其中的激励机制。但这不就是一堆改了个名字的 API 吗?我内心有一部分觉得这种说法过于简化和小看它了。
微软CTO Kevin Scott:确实,我认为这并非坏事,反而是件极好的事情。这套简单的协议集合能够实现极其丰富的功能,这又回到了核心理念——我们希望智能代理真正名副其实,发挥巨大作用。理想的智能代理应该是一款软件,能随时间推移承担越来越复杂的任务委托。而要让任务复杂度不断提升,代理必须具备工作能力。实现这一点的最佳方式,就是确保内容与服务的普遍可获取性——需要协调各方利益,包括降低采用门槛、完善商业模式,以及理顺整个经济逻辑,从而实现广泛普及。因此,简洁性绝对是关键特性。
主持人:让我们谈谈当前网络生态中那个无法回避的庞然大物——谷歌。如今的互联网完全围绕着谷歌的优先级、需求及其流量算法运转。甚至催生了一整个 SEO 顾问行业,他们就像挥舞着烟花棒试图为你吸引流量。这很棒,我们乐见其成。
这种情况显然正在改变,对吧?随着谷歌将更多流量留给自己,或对训练数据采取不同策略,整个格局都在变化。关键在于让你的网站更具代理性,而MCP 协议将支持你在此基础上构建新的商业模式。在我看来,问题在于随着谷歌引荐流量的下滑,网络流量正急剧萎缩。如何解决这个问题,才能激励所有人继续在网络上建设?Kevin Scott:说实话我也不确定。其中一个验证方式是——为了亲身体验,我开设了一个 Shopify 店铺。我经营着这个小副业,只为感受作为网络创业者的真实处境。
主持人:这种体验如何?Kevin Scott:这很有意思。为了给业务引流,你需要费尽心思地周旋,还要投入大量精力维护这些流量渠道。有趣的是,我店铺的大部分客源并非来自谷歌,而是通过社交媒体和社交广告导入的——这与我预期的情况截然不同。目前我还没发现任何有价值的自然搜索推荐,更不用说能带来实际转化的了。
主持人:那Bing呢?
微软CTO Kevin Scott:就像没有自然搜索结果那样。
主持人:很高兴知道你们没有暗中操控。这正是我想问的。
微软CTO Kevin Scott:是啊是啊。我当然没有。实际上,微软大多数人可能都是第一次听说凯文·斯科特还有个 Shopify 店铺。所以没错,绝对没有任何暗中操作。作为一名网站运营者,我最渴望的是能彻底摆脱对流量的焦虑。我希望把更多时间用于与潜在客户建立真诚联系,精心培育这种关系。我梦想着这样一个网络空间:人们可以购买我的产品、深入了解服务内容,最终成为我能真正建立联系的忠实客户——就像经营实体店铺时,与进店顾客建立的那种真实互动。在我看来,这些技术至少能让我获得比整天钻研 SEO 这种抽象游戏更实在的商业关系。在我看来,社交媒体至少更接近我刚才描述的状态——比如我刻意经营社交媒体受众,只吸引那些可能对我作为创作者所做的事情感兴趣的关注者。当然…我知道这完全没回答你的问题。我也明白许多人上网有着截然不同的商业目标,远不止是想当个小店铺那么简单。
主持人:你知道这有什么有趣之处吗?过去几年里我问过很多人一个问题:”为什么还有人要创建网站?” 我的参照系是当我们创办 The Verge 时,我们唯一要做的就是创建网站。我们是一群想讨论科技的人,所以在 2011 年我们就是要创建一个网站。当时我们甚至没打算开 YouTube 频道,那是后来人们大规模做 YouTube 频道之后的事。在我们起步的那个年代,就是”你要创建一个大型网站”。时至2025 年,我在想:如果有 11 个朋友想和我共创科技产品,我们会直接开个 TikTok 账号。根本不会有人考虑搭建大型网站并处理各种依赖项。我们会开个 YouTube 频道。我曾问过人们:”现在谁还会建网站?”得到的答案几乎清一色是为了电商——为了在平台规则和抽成体系之外完成交易,把用户引流到别处验证你的商业实体身份后再成交。这就是当下互联网存在的意义。就我所知,网络的另一个关键点在于它已成为桌面端的主导应用平台。无论是通过Electron 框架实现,还是通过浏览器中的真实网络本身呈现,它都构成了应用层。因此我理解为什么有人会说”我们要开发智能代理,让它们遍历现有的开放应用层并利用那些工具”。但我仍困惑的是——如果我只想与人交流,就会转向某个封闭平台,于是我们便陷入了一个连 AI 工具都缺乏信息的情境:讨论购物的人可能在 TikTok 上,而所有商品却存在于网络。这个闭环我始终无法打通。
微软CTO Kevin Scott:我认为这正是MCP 和 NLWeb 这类技术可能带来的变革。如果人们希望通过智能代理进行研究或商业交易,如果用户意图和需求都源自于此,那么你就需要建立某种连接机制来实现对接。假设在2025 年,你和 11 个朋友要开个科技主题的 TikTok 频道。如果你们计划评测科技产品或科技网站,并希望触达使用 Copilot、ChatGPT 这类 AI 助手的观众,你们会希望这些智能代理软件能通过某种方式接入你们的媒体频道,从而将你们发布的内容展示给目标受众。而NLWeb 可能是实现这一目标的理想方式——你可以选择性地提供内容,就像搜索引擎展示摘要片段那样。比如当用户向 AI 代理提问:”我想买新手机,这是我的需求,能帮我找些相关信息吗?”——如果你的 TikTok 频道能让 AI 代理识别内容价值,就可能获得来自智能代理的推荐流量,比如”快去看这个视频,内容超有趣”。
主持人:我很好奇这些大型平台是否会像当初不得不向搜索引擎开放那样,现在也允许智能代理来搜索或操作它们的数据?
当时别无选择。我认为暂时退出搜索领域最大的平台可能是Facebook,但 Instagram 仍然可搜索,对吧?这里存在一种权衡——你希望在这些工具上被曝光、被发现,所以大家都纷纷开放了。至于你将如何向智能代理开放,我认为出于各种原因(其中很多是合理的),目前还不明确。既然我们可以打造自己的代理,为什么要这样做呢?我们仍处于早期探索阶段。
微软CTO Kevin Scott:我不知道这个问题的答案。
主持人:用搜索领域的术语来说,你是要做垂直搜索还是大型横向搜索?横向搜索可以说已经全面胜出了。
微软CTO Kevin Scott:很难确切预测未来走向。我认为这很大程度上将由用户决定。即将发生的变化之一就是:用户会自行决定他们愿意接受什么。如果使用智能代理来管理生活事务成为人们的主流选择,那么未接入代理的服务就会逐渐淡出视野。人们会下意识觉得”哦,X 服务我的代理无法访问,可能 X 已经失效了,我得另寻他法”。当市场逐步明确需求时,我们最需要的是尽可能多的开放协议,这样人们才能根据用户最终选择做出灵活决策——毕竟用户正在用行动表达偏好。至少要保持协议开放,当趋势明朗时我们才能自主选择接入。
主持人:我迫切想知道这会如何发展。像Tripadvisor 这样的许多网站肯定渴望这种分发方式。显然,我们需要构建前端工具和聚合器,它们会说:”好了,这是即将出发的智能体”。考虑到目前已经演示或宣布但未发布、或只面向五人发布的那些智能体,你认为这是必需的吗?你认为像这样在整个网络推行 MCP 是智能体系统运行的必要条件吗?毕竟目前它们都还未能真正运作。
微软CTO Kevin Scott:我认为这类工具确实很有必要。回想当年我在移动广告领域起步时,之所以投身这个行业,就是想为移动应用和服务开发者解决分发与变现的难题。在AdMob 这类平台出现前,开发者唯一的推广途径就是与手机厂商签订商务协议——那时候还是 WML(无线标记语言)时代,能否获得手机菜单栏的展示位全凭厂商决定。这种模式现在看来相当原始,虽然当时合情合理。但纵观技术发展历程,如今谁还会选择那种受制于人的方式呢?
因此我认为目前存在这样一种动态:尽管这些智能体功能还很有限,但人们确实从中找到了实用价值。在软件开发等领域,由于需要智能体执行的操作范围相对狭窄,当你构建出某种完整性时——比如”天哪,采用率太高了,人们太爱这些功能了”,就会涌现大量竞争,这正在彻底改变软件开发的工作方式。我认为我们将看到的是——这是我,乐观主义者凯文·斯科特的看法——如果真能构建一个完全智能化的网络,让 MCP 协议成为这个智能网络的通用语,就像 HTTP 协议那样,任何人都能轻松架设 HTTP 服务器并开始提供 HTML 内容,由他们自主决定 HTML 载荷的具体形态。届时我们会见证一场关于可能性的、真正有趣的有机演进过程。虽然我不知道道德层面上相当于 Amazon.com 或早期互联网赢家的案例会是什么,但当基础设施搭建到足够规模时,一切都会变得极其有用。不过我认为,在实现完全效用之前,必须先解决部分协议层面的问题。这正是 MCP 的价值所在——我们把 NLWeb 视为类似 HTML 层的存在,它能让你无需进行大量底层工作,就能将自己的内容接入智能网络。
主持人:这让我联想到苹果试图打造一个具备自主能力的Siri,其基础是苹果操作系统中的框架 App Intents,该框架允许 iOS 应用以某种方式向 Siri 开放功能,使 Siri 能在这些应用内执行操作。两者存在粗略的相似之处——显然 MCP 是更开放的标准,也更处于萌芽阶段。App Intents 同样遭遇了商业模式难题:作为 iOS 应用开发者,你为何要让 Siri 而非用户使用应用?毕竟直接面向用户才能推销增值服务或应用内订阅。这是其中一个相似点。另一个类似的例子是Alexa Plus,我之前开玩笑说它已经向部分用户推出,但没人知道这些用户是谁 。谷歌也有一些智能代理的构想。Anthropic 和 OpenAI 都在探索计算机应用。但目前都尚未成功。你是否看到过任何迹象表明这次肯定会成功?
微软CTO Kevin Scott:具体回答你的问题,在软件工程和演示之外,我还没有真正看到实际可行的方案。让我说得更具体些——看看我的日常生活,观察我如何使用这些技术,除了软件开发外,我(凯文·斯科特)其实很少会选择委托这些代理替我处理事务。但我能从 MCP 中嗅到这种可能性,而且我认为它必须是开放式的。垂直整合的方式恐怕很难实现这一点。
主持人:我想问的另一个问题——我真是把媒体培训的功夫都用上了——是关于谷歌的。谷歌之所以能取得某些成功,是因为当时微软正深陷反垄断压力之中,对吧?微软捆绑 IE 浏览器、对网景施压,这些引发了诸多法律纠纷。谷歌得以乘虚而入,将 Chrome 推向 Windows 系统,并构建了应用层。这段历史众所周知。微软的反垄断压力确实为谷歌的成功创造了机会。如今多年过去,已是数十年后。谷歌自身也面临巨大反垄断压力,尤其涉及它对网络生态的控制,无论是在广告层还是搜索层。甚至有建议要求政府强制谷歌剥离Chrome 业务。这些反垄断纷争让谷歌分身乏术,而此刻我正在与微软高管探讨网络新理念和网络新标准。你是否认为机会是相似的——由于谷歌被牵制,市场出现了新的空间?
微软CTO Kevin Scott:我认为机遇就在当下——技术本身已经为某些变革做好了准备。Guha 展示的这个演示在两三年前根本无法实现,因为当时技术尚未成熟。那时要做到这一点简直难如登天,Tripadvisor 绝不可能在周二看到某个功能,周三就能用自己的数据进行演示。这完全取决于技术的成熟度。至于政府与其他科技公司的任何举措将带来什么影响,我无从预测。但我认为当前正在发生的部分变革,源于一系列能够实现新功能的技术涌现,同时大批科技巨头和创业者都从中看到了可能性。我期望的是这个生态系统能以人类所能达到的最快速度走向成熟。这让我不禁想起自己作为年轻开发者最快乐的时光——互联网初兴之时,那种当复杂难题突然变得简单、协议纷纷开放、无需任何人许可就能大胆尝试的澎湃感。正是在这样的时刻,奇迹才会诞生。
主持人:那我稍微施加点压力吧。我想把话题拓宽些,聊聊人工智能的整体发展。如果两年前你带着”微软推出了一项访问网络和构建网站的新标准”出现,所有人都会说”太好了,我们等着看谷歌怎么跟进”,或者”等谷歌采用这个标准”。如今谷歌正承受巨大压力,公众信任度大幅流失。现在 OpenAI、Anthropic 和微软有机会推出新标准,并且人们真的相信这套标准可能被广泛采纳——而谷歌不可能明天就带着自己的标准出现,把你们的势头全抢走。这对你们来说肯定是事实,对吧?你们能感受到这种变化。因为我想到的类比是,就像90 年代末或 21 世纪初那样——每当有人宣布一个新标准,微软就会推出一个基于 Windows 的专有版本,然后原标准就消失了,这正是问题所在。你现在看到这种历史重演了吗?
微软CTO Kevin Scott:我不知道。有时候我是在试图回避。但这次不是。作为一个工程师,有时我会觉得某些事情在技术上是不可避免的。我在微软内部就MCP 进行了多次讨论,有人说”啊,这并不完全是我们想要的”。而我的反应是:没错,但这其实无关紧要。有时候生态系统中确实存在这样一个问题——那个最简单、所有人都能选择采用的解决方案会成为赢家,因为普及度才是真正重要的。而现在,我们似乎正面临许多这样的机遇。因此,我认为真正有益的是,其中一些技术已变得如此简单,以至于实际上不需要一家市值数万亿美元的公司投入大量工作来快速创造普及条件。从某种意义上说,有了MCP 和 NLWeb,你并不需要科技巨头来推动它。我们只是在这里发声说:”嘿,这个有趣的东西是开放的,随你怎么用。”这就是我能做的一切。对于开放协议,我没有权力命令任何人做任何事。我们会为它点亮明灯,期待美好的事情发生。主持人:让我们广泛谈谈人工智能行业。你形容它处于中期阶段,我则称之为第二幕。这项技术已经存在,每个人都用过它。我们都玩过聊天机器人。有些记者还被聊天机器人建议离开妻子——这个玩笑我永远说不腻。总体而言,你最初的赌注中哪些是对的?哪些错了?有什么让你感到意外?
微软CTO Kevin Scott:我认为我们准确地把握了基础模型推理能力的规模扩展规律。我们坚信这些趋势将持续发展的判断,绝大多数情况下是正确的。在提升模型推理能力方面,我们仍有巨大的进步空间,我不想低估持续扩展规模的难度。但只要拥有合适的资源和专注力,这些问题看起来都是可以合理解决的。我认为当前的困境在于,我们拥有的模型能力存在巨大冗余——这些模型的实际潜力远未被充分挖掘。即便在微软内部,我也可能高估了人们全面拥抱基础 AI 模型平台功能的速度。因此从产品化角度来看,我们现在其实有些滞后。这里说的”我们”不是单指微软,而是指整个行业——除了软件开发工具领域突飞猛进的进展外。医疗健康等领域本可以取得比现在大得多的突破,但很多创新被基础设施层面的瓶颈所阻碍,这也正是我们这次对话要探讨的核心议题。但更关键的是,我们需要更多初创公司和更多产品来充分释放这些模型已有的可能性。而且还有一点就是,我反复不断地进行这样的对话。上周晚些时候我参加了一个开发者聚会,那里存在一种特别不利于指数级进步平台的保守主义倾向。如果没有这个指数级发展的平台,这种态度甚至都称不上保守。就像有人看着某项技术说:”啊,这个对我来说有点太贵了,不适合解决我当前的具体问题”,或者说”它现在勉强能用,正确率大概30%,但也就仅此而已”。然后结论就是:”好吧,我还是先观望等待吧。”这种做法可能是正确的,除了暂停中的等待部分——目前在许多情况下等待时间实在太长了。等到人们下次去测试它是否变得更便宜或更强大时,技术发展早已超越了所需阶段,这时再想把自己的产品推向市场就为时已晚了。我认为这正是我们反复犯错的症结所在,我们的模式匹配能力本可以做得更好。
主持人:没错。你是说应该现在就构想产品,即使它们尚未达到百分百完美。
微软CTO Kevin Scott:是的。
主持人:提到这点很有意思,因为你是微软与OpenAI 合作关系的架构师之一。几年前你参加节目时,我问过你这段关系的起源,你当时用平台思维来描述——微软显然是家平台公司,Azure 就是个巨大平台。你说:”OpenAI 与我们的平台愿景高度契合,我们希望建立一种能共同构建平台的合作伙伴关系。”可以说这两年情况发生了变化。这些公司之间已经拉开了一些距离,或许距离还不小。前几天我观看了参议院关于AI 的听证会 ,注意到微软的布拉德·史密斯和 OpenAI 的山姆·奥特曼分别坐在长桌两端。OpenAI 现在更像一家消费级公司对吧?显然他们正着力打造面向消费者的重磅产品,而非平台产品。在我看来,比起现在的 OpenAI,Anthropic 更符合平台型公司的定位。您如何看待现在这种关系?是完全解耦了吗?你们还在合作吗?仍在尝试构建平台吗?
微软CTO Kevin Scott:我仍将大量时间投入在OpenAI 相关事务上,这里面涉及大量技术工作。仅从工程师角度而言,我们正在共同构建庞大的计算系统。OpenAI 是 Azure 的重要客户,其工作负载在我们平台中占据显著比重,特别是在 AI 计算领域。因此我们持续与 OpenAI 协作,确保构建符合其需求的系统,双方在全方位都有大量合作项目——从如何优化基础设施架构,到如何将训练完成的模型进行优化使其真正成为平台组件。我们仍维持着联合部署安全委员会,确保所有面向公众发布的产品都经过严格负责的 AI 审查流程。没错,我们正在开展的合作项目确实非常庞大。
主持人:如果你仔细听,这与之前所说的有本质区别,对吧?“OpenAI 是我们 Azure 的大客户,工作负载很大。”当然,每家厂商都会与最大客户紧密合作。但原先的说法是“我们相互依存,正是他们的模型驱动着微软全线 Copilot 产品”。现在的口吻听起来像是微软已将 OpenAI 从独立技术合作伙伴的类别,降级为需要紧密合作的大客户。
微软CTO Kevin Scott:这和我们其他任何大客户都截然不同。他们在Azure 超级计算机上训练的模型,对微软正在构建的产品依然极其重要。他们开发的组件也是 Azure 平台的关键部分。因此它既是客户,也是平台共建伙伴。况且你看,他们独立推进的诸多项目(比如 ChatGPT)与我们毫无关联。这很棒,因为 ChatGPT 的成功正在倒逼 Azure 平台快速进化。这又是一脉相承的理念。我不确定上次讨论OpenAI 合作时是否提到过——但早在五六年前我们达成首份协议时,我的核心论点就是:必须让全球顶尖的 AI 工作负载运行在 Azure 上,这样才能确保 Azure 为未来的 AI 工作负载打造世界级的基础架构。因此 ChatGPT 越成功,Azure 的发展就越完善。
主持人:说到这些AI 工作负载,我的同事 Tom Warren 曾报道称,埃隆·马斯克和 xAI 正准备在 Azure 上托管 Grok。他让我问问您,微软内部对与埃隆合作是否存在顾虑?特别是考虑到其他依赖关系,您能信任这家公司吗?您有这种担忧吗?
微软CTO Kevin Scott:我对这方面的讨论其实并不太了解。我知道我们正在推进这项工作。我们在Azure 上建立模型市场的初衷,就是确保开发者想使用的所有优质开源模型都能便捷获取。因此,凡是能提供的资源,我们都会提供。
主持人:你现在还掌管微软的GPU 预算分配吗?
微软CTO Kevin Scott:不,已经不管了。
主持人:几年前你曾对我说过这句话,我一直记到现在。现在真的不再负责了吗?
微软CTO Kevin Scott:我没有。谢天谢地。
主持人:当时发生了什么?是因为工作量太大吗?因为你之前也形容这份工作糟透了。
微软CTO Kevin Scott:哦,那确实是个糟糕的工作。真的,非常糟糕。
主持人:现在对GPU 的需求压力是减轻了还是更大了?
微软CTO Kevin Scott:不。我们仍然需要大量大量的GPU。
主持人:因为路透社等媒体的报道也指出,随着模型运行成本降低(如DeepSeek 等案例所示),微软已放缓部分数据中心投资或进行了资源重新分配。
微软CTO Kevin Scott:不。我们仍在紧急部署算力资源。我想说的是,如果你身处微软内部,与所有正在开发AI 产品或从事 AI 研究的团队交流,就会发现无论技术趋势如何变化,大家对更多 GPU 的需求从未减弱。
主持人:你认为我们能在现有硬件上实现通用人工智能吗?这是业内不断流传的观点,我经常听到同行们讨论这个问题。
微软CTO Kevin Scott:我甚至不知道AGI 是什么,自从多年前写完书后,这个问题就一直让我有些困惑。我认为首先需要明确你所说的这个概念究竟指什么。看看当前正在推出的硬件世代,我们正从这代新硬件中获得显著的性能提升。所以如果考虑未来 12 个月的发展,所有人的系统性能都将实现相当可观的跨越式进步——因为当前这代硬件及其可实现的优化确实非同寻常。
主持人:你认为我们会因为优化还是硬件更强大而获得更多能力?
微软CTO Kevin Scott:确实,大部分性能提升都来自优化,因此每一代硬件在性价比上大约有2倍的提升,这非常了不起。要知道,按照摩尔定律,过去每18个月都达不到这种提升速度,进步要慢一些。如今硬件进步的速度已经令人惊叹,但软件在硬件基础上的性能优化甚至更为显著。当这两者结合时,我们几乎每年都能稳定地获得数量级的提升。
主持人:你如何描述这些优化?因为模型能力的早期提升很大程度上来自单纯地吸收更多数据,对吧?我们只是把模型做得更大,它们就这样变得更聪明了。
微软CTO Kevin Scott:这涉及多方面因素。根据模型训练方式的不同,会采取不同措施。优化手段层出不穷——许多突破来自能有效使用更小的数据类型来存储模型激活值,无论是在推理还是训练阶段。这意味着可以并行执行更多算术运算,因为使用的数值更小。说实话,从训练端的改进到人们彻底重写推理堆栈的数值内核,优化范围的广度确实令人惊叹。此外,还可以运用计算机科学的标准技术手段,比如提示词优化、缓存机制,以及采用多模型协同处理提示。并非每个提示都需要发送给最昂贵的模型处理。我们现在拥有足够丰富的模型组合,可以选择用经过极致性能优化但通用性较弱的模型处理特定任务,而将更复杂的任务交给更大更昂贵的模型。这几乎就等同于缓存优化策略。
主持人:有趣的是,当我与其他具身AI 公司的 CEO 交流时,他们都把那种协同编排视为关键,而您将 MCP 视为关键,我很好奇哪个应该先行。我们在协同编排方面已经取得了很大进展。
微软CTO Kevin Scott:我认为,回到这个能力过剩的问题上,目前这些模型拥有的推理能力其实远超我们的实际运用水平。因此我的假设是:阻碍我们实现更多实用功能的因素之一,恰恰是行动执行环节——当前整个行动空间还过于受限。我并不是说这是非此即彼的选择,只是觉得要拓展这个行动空间将面临巨大挑战,所以我们现在就应该像构建生态系统那样全力推进这项工作。
主持人:最后我想和你聊聊我最喜欢的话题——科技与艺术的关系。你写过一本书,《重编程美国梦》。我们第一次交谈就是关于这本书。值得注意的是,序言是由现任美国副总统 JD·万斯撰写的,我想当时你也没预料到这一点。
微软CTO Kevin Scott:不,我没有。
主持人:你确实预见到很多关于AI 将如何重塑经济、或至少威胁要重塑经济的讨论。 当我们讨论模型能力提升的途径时,那种仅通过吞噬更多数据就能增强模型能力的理念已经触达天花板了,对吧?
微软CTO Kevin Scott:我们已经吞噬了所有数据,现在却面临大量关于数据采集合法性及补偿问题的诉讼。作为作家,我想用最直白的方式问你:如果我站在书店外拦住每个想买你书的读者说”我可以为你制作这本书的播客,你只需发条短信,我就回传整本书的概要播客”,你觉得这会促进还是损害你的书籍销量?
主持人:关于凯文我要说一点——不知能否推广到所有作家——我个人完全不介意别人如何处置我书中的内容。
微软CTO Kevin Scott:即使你不得不靠这本书的销量来谋生?
主持人:是的,这就是为什么情况截然不同。我认为,如果作者倾注全部时间和心血创作一部作品,理应获得相应的回报。当然,获得回报的方式多种多样,而且说实话,我对当前这些诉讼案的进展关注不够,即便我能发表意见,恐怕也难有建设性。
微软CTO Kevin Scott:但回到我们最初的话题,我认为这种代理式网络采用开放协议最可贵的一点在于——尤其在当前整个行业尚未明确商业模式的初期阶段——创作者们能获得更多自主权,可以主动探索商业模式的可能性。我认为当下人们非常有必要对此进行深思熟虑。
主持人:当ChatGPT 发布那个工具时, 你是不是做了个吉卜力工作室的梗图 ?
微软CTO Kevin Scott:不,我没有。
主持人:你没有吗?好吧。我很好奇。很多人都这么做了。我不是说我没有。对此我不予置评。我的观点是,作为一个在这里从事创意工作的人,你自己也是创作者,许多人的生计依赖于他们创意作品的经济回报。他们对AI 行业的普遍批评是:你们创造了所有这些能力——可能如你所说,甚至超出了我们正在使用的范畴——但我们却未获得任何回报。现在我们已深陷其中,对吧?第二阶段,中场较量,除了几起诉讼外,这种状况似乎并未改变。我只是想知道你的想法是否有所演变或成熟。
微软CTO Kevin Scott:我认为我最初对此的思考方式与现在是一致的。我当然不愿看到任何事让宫崎骏减少创作那些美好的作品。我可能是他和吉卜力工作室多年来所做作品的最大粉丝之一。我认为那简直是20世纪和21世纪初最美丽的艺术创作之一。所以没错,像他这样的人,我希望世界上所有的激励都能促使他们继续创作更多这样的作品。关于这个平台,我要直言不讳地说:我对那些图像生成器并不太感兴趣。真正让我关注的是能为我母亲进行医疗诊断的模型——她住在弗吉尼亚州中部的乡村地区,无法获得真正优质的医疗服务。在美国,还有数千万人跟她处境相同。
随着时间的推移,情况并不会好转,因为美国的人口结构问题。
内容与AI 是否擅长医疗诊断毫无关联,这正是我想在这场辩论中强调的重点——我们可以讨论创意经济这一环节,我绝不希望这部分受到任何干扰,因为我本人就是这些创作者的粉丝,由衷欣赏他们。几个月前我与里德·霍夫曼和 J·J·艾布拉姆斯讨论时说过,如果真有什么改变,我反而希望 AI 能让像艾布拉姆斯这样的创作者更轻松地产出更多作品。我认为未来会有更多优质内容涌现,而这正是人们所期待的。
他们会更想要这样的体验:”嘿,我是 J·J·艾布拉姆斯的粉丝,喜欢他的风格和作品。给我更多这样的内容,而不是那些青少年用图像生成模型弄出来的随机垃圾。”但这确实是个值得深入探讨的重要议题。我不希望这掩盖了另一个关键事实——这些工具在解决某些重大问题时能发挥巨大作用。我们既要推进眼下这场重要讨论,也不能让它阻碍我们同时推进那些同样至关重要的技术发展。
主持人:这很有趣,因为你描述的内容或多或少就是特朗普解雇国会图书馆馆长和版权登记处处长之前版权局发布的框架,现在看来适得其反。如今这个职位上换了个更极端的版权最大化主义者,因为那份报告曾指出某些训练数据用途显然属于合理使用,比如学术研究。
我就直接引用上周美国版权局初步报告中的原话:”在未经许可的情况下,利用合法获取的海量受版权保护作品进行商业用途,生产与之形成市场竞争的衍生内容,这种做法显然逾越了现行法律确立的多重边界。”
这里存在一个区别。在某些领域,比如医学影像,这项技术的效用极高且具有变革性,可能完全适用。但有些情况则不然,比如你只是复制了世界上所有的YouTube 视频,然后让人们制作更多类似的视频,这很可能就不合适。你能设想一个适用于微软正在开发的工具的框架吗?在这个框架下,你会明确哪些事情我们要做,哪些事情我们不做?
微软CTO Kevin Scott:我认为我们愿意进行任何有意义的对话。关键在于参与讨论时需认识到基础技术存在某些限制和约束,决定了哪些可行哪些不可行,但我认为这里蕴含着极其丰富的对话空间。你还敏锐地指出一个有趣现象:我们确实已经耗尽了可用于训练模型的所有数据资源,因此当前许多系统正采用新型训练技术,它们对数据量的依赖程度已大幅降低。这意味着可能存在各种技术手段来增强模型的推理能力,而这些方法对海量原始数据标记的依赖程度,可能远低于以往某个阶段的要求。
我想我们上次也讨论过,现在人们对数据质量的理解越来越深入,明白每个数据标记对模型推理能力的贡献程度。而最关键的是——我对这类技术最大的执念在于——把模型简单地视为数据库或信息检索系统,这种认知本质上是在讨论一个次优系统。单从效率角度来看,它们作为数据库的表现相当糟糕。所以又回到了 NLWeb 这样的解决方案:通过模型来模拟生物大脑的推理学习方式,就像你教导生物大脑进行推理那样。
当你具备一定水平的推理能力后,有趣之处在于:逐条提示、逐个任务中,你能获取哪些信息进行推理?这两者的变现方式及商业分成比例可能存在天壤之别。举例来说,若你需要一个能实时解析突发新闻的模型,借助类似NLWeb 的工具并订阅多家新闻机构,在出版商允许的情况下,通过用户授权令牌就能让智能体访问这些订阅内容,进而基于这些信息进行推理。这种情况下,你相当于支付订阅费来获取可供推理的时效性内容。我认为假以时日,我们完全能找到各种方式来解决这类商业模式问题。
主持人:我想把这些都整合起来。听起来通过新的搜索项目NLWeb,以及对 MCP 的投资并希望它更普及,感觉你们正在试图为网络带来一次全面的架构变革。这就是新型网络,你们正试图孕育并激励它的诞生,因为旧网络的协议似乎已经走到尽头。这样的描述是否准确?
微软CTO Kevin Scott:我不确定旧网络的协议是否已经失效,但现在是时候考虑建立一些新协议了。当我们共同构思新架构时,应该效仿优秀架构师的做法——审视近年来哪些方案对各方参与者有效、哪些失效,然后努力创建对所有人更有利的机制。当创作者与消费者的利益达到平衡,当价值交换不再受制于各种奇怪的中间环节,当所有参与者的激励机制协调一致时,我们才能实现最优的结果。
主持人:好吧,祝你好运,因为到目前为止创作者们对自己的利益所在有着非常明确的立场。凯文,显然我可以和你聊个没完。你一定要尽快再来做客。我想持续关注这个网络项目,看看它未来的发展走向。
微软CTO Kevin Scott:感谢你们的邀请。
由CXOUNION-CXO联盟(cxounion.cn)转载而成,来源于Z Finance;编辑/翻译:CXOUNIONCXO联盟小O。
如需加入CXO UNION(CXO联盟)高管社群,请联系社群小伙伴哦~

免责声明: 本网站(http://www.cxounion.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
如需加入CXO UNION(CXO联盟)高管社群,请联系社群小伙伴哦~

免责声明: 本网站(http://www.cxounion.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。
Search
Popular Posts
-
2024数字化灯塔案例评选申报开启!
“2024数字化灯塔案例评选”于3月正式启动,诚挚欢迎业界同仁自荐和推荐,一起推动产业数字化进程,助力赋能企业…
-
2024 X-Award星盘奖申报通道已开启!
X-Award星盘奖是数字化转型服务、IT服务行业重要的商业奖项,旨在表彰行业里提供杰出数字化转型服务与IT服…
-
2024 N-Award星云奖申报通道已开启!
N-Award是数字化转型领域重要的商业奖项,旨在表彰那些以非凡的远见、超群的领导才能和卓越的成就来激励他人的…





