查看源码 非阻塞代码加载

简介

在 OTP R16 之前,当加载 Erlang 代码模块时,虚拟机中的所有其他执行都会暂停,同时在单线程模式下执行加载操作。对于虚拟机启动期间模块的初始加载,这可能不是一个大问题,但对于在运行有效负载的虚拟机上升级模块或添加新代码时,它可能会严重影响可用性。随着核心数量的增加,这个问题会变得更加严重,因为等待所有调度器停止的时间以及暂停正在进行的工作的潜在量都会增加。

在 OTP R16 中,加载模块时不会阻塞虚拟机。Erlang 进程可以在整个加载操作期间继续并行执行,不受干扰。代码加载由一个普通的 Erlang 进程执行,该进程与其他进程一样被调度。加载操作通过一个单一的原子指令以一致的方式使加载的代码对所有进程可见来完成。当在运行的 SMP 系统上加载/升级模块时,非阻塞代码加载将提高实时特性。

加载阶段

模块的加载分为两个阶段:准备阶段完成阶段。准备阶段包含读取 BEAM 文件格式以及所有可以在不干扰运行代码的情况下轻松完成的加载代码的准备工作。完成阶段将使已加载(和已准备)的代码可以从运行代码访问。旧的模块版本(已替换或删除)也将通过完成阶段变得不可访问。

准备阶段旨在允许多个“加载器”进程并行准备单独的模块,而完成阶段一次只能由一个加载器进程完成。第二个尝试进入完成阶段的加载器进程将被挂起,直到第一个加载器完成。这只会阻塞该进程,调度器可以自由调度其他工作,而第二个加载器正在等待。(请参阅 erts_try_seize_code_load_permissionerts_release_code_load_permission)。

目前还没有使用并行准备多个模块的功能,因为几乎所有的代码加载都由 code_server 进程串行化。但是,BIF 接口已经为此做好了准备。

  erlang:prepare_loading(Module, Code) -> LoaderState
  erlang:finish_loading([LoaderState])

想法是,可以为不同的模块并行调用 prepare_loading,并返回一个包含每个已准备模块内部状态的“魔术二进制”。函数 finish_loading 可以接受此类状态的列表,并一次性完成所有状态的完成。

目前,我们使用传统的 BIF erlang:load_module,它现在在 Erlang 中通过按顺序调用上述两个函数来实现。函数 finish_loading 仅限于接受一个包含一个模块状态的列表,因为我们尚未利用多模块加载功能。

完成序列

在虚拟机执行期间,通过多个数据结构访问代码。这些代码访问结构

  • 导出表。每个导出的函数一个条目。
  • 模块表。每个加载的模块一个条目。
  • “beam_catches”。标识 catch 指令的跳转目标。
  • “beam_ranges”。将代码地址映射到函数和源文件中的行。

这些结构中最常用的是导出表,在运行时,每次执行外部函数调用时都会访问该表,以获取被调用者的地址。出于性能原因,我们希望访问所有这些结构,而不会因线程同步而产生任何开销。早先,这是通过紧急中断来解决的。停止整个虚拟机以更改这些代码访问结构,否则将它们视为只读。

R16 中的解决方案是复制代码访问结构。我们有一组由运行代码读取的活动结构。当加载新代码时,会复制活动结构,更新该副本以包含新加载的模块,然后进行切换以使更新后的副本成为新的活动集。活动集由一个单一的全局原子变量 the_active_code_index 标识。因此,可以通过单个原子写入操作进行切换。运行代码在使用活动访问结构时必须读取此原子变量,这意味着例如每次外部函数调用都需要一个原子读取操作。然而,由于可以在没有任何内存屏障的情况下完成(如下所述),因此这种额外的原子读取造成的性能损失非常小。通过此解决方案,我们还保留了加载操作的事务性特征。运行代码永远不会看到半加载模块的中间结果。

完成阶段按以下顺序由 BIF erlang:finish_loading 执行

  1. 获取独占代码加载权限(如果需要,暂停进程,直到我们获得权限)。

  2. 对所有活动访问结构进行完整复制。此副本称为暂存区,由全局原子变量 the_staging_code_index 标识。

  3. 更新暂存区中的所有访问结构,以包含新准备的模块。

  4. 调度一个线程进度事件。这是未来所有调度器都已让出并执行完整内存屏障的时间。

  5. 挂起加载器进程。

  6. 在线程进度之后,通过将 the_staging_code_index 分配给 the_active_code_index 来提交暂存区。

  7. 释放代码加载权限,允许其他进程暂存新代码。

  8. 恢复加载器进程,允许它从 erlang:finish_loading 返回。

线程进度

为了使进程在正常执行期间读取 the_active_code_index 原子变量而无需任何昂贵的内存屏障,必须等待 4-6 中的线程进度。当我们在步骤 6 中将新值写入 the_active_code_index 时,我们知道,一旦通过 the_active_code_index 可达,所有调度器都将看到所有新的活动访问结构的更新且一致的视图。

但是,读取 the_active_code_index 时完全没有内存屏障会产生一个有趣的后果。不同的进程可能会在不同的时间点看到新代码,具体取决于不同核心刷新其硬件缓存的时间。这听起来可能不安全,但实际上无关紧要。我们必须保证的唯一属性是,看到新代码的能力必须通过进程通信传播。在收到由新代码触发的消息后,必须保证接收者也能看到新代码。这将得到保证,因为所有类型的进程通信都涉及内存屏障,以确保接收者读取发送者写入的内容。然后,这种隐式内存屏障还将确保接收者读取 the_active_code_index 的新值,从而也看到新代码。这适用于所有类型的进程间通信(TCP、ETS、进程名称注册、跟踪、驱动程序、NIF 等),而不仅仅是 Erlang 消息。

代码索引重用

为了优化步骤 2 中的复制操作,代码访问结构会被重用。在当前的解决方案中,我们有三组代码访问结构,由代码索引 0、1 和 2 标识。这些索引以循环方式使用。我们不必为每次加载操作初始化所有访问结构的全新副本,而只需更新自上次两次代码加载操作以来发生的更改。我们可以只使用两个代码索引(0 和 1),但这需要在 finish_loading 序列中的步骤 2 之前再等待一轮线程进度。在知道没有滞留的调度器线程仍将其用作活动代码索引之前,我们不能开始将代码索引重用为暂存区。通过三代代码索引,步骤 4-6 中的线程进度等待将为我们提供此保证。线程进度将等待所有正在运行的调度器至少重新调度一次。在第二轮线程进度之后,无法存在读取从 the_active_code_index 的旧值到达的代码访问结构的正在进行的执行。

在两代或三代代码访问结构之间进行的设计选择是在内存消耗和代码加载延迟之间进行权衡。

一致的代码视图

某些原生 BIF 可能需要获取活动代码的一致快照视图。为此,仅读取一次 the_active_code_index,然后在 BIF 期间的所有代码访问中使用该索引值非常重要。如果并行执行加载操作,则第二次读取 the_active_code_index 可能会导致不同的值,从而导致不同的代码视图。