cachepc-linux

Fork of AMDESE/linux with modifications for CachePC side-channel attack
git clone https://git.sinitax.com/sinitax/cachepc-linux
Log | Files | Refs | README | LICENSE | sfeed.txt

pmu.rst (9137B)


      1.. include:: ../disclaimer-zh_CN.rst
      2
      3:Original: Documentation/riscv/pmu.rst
      4
      5:翻译:
      6
      7 司延腾 Yanteng Si <siyanteng@loongson.cn>
      8
      9.. _cn_riscv_pmu:
     10
     11========================
     12RISC-V平台上对PMUs的支持
     13========================
     14
     15Alan Kao <alankao@andestech.com>, Mar 2018
     16
     17简介
     18------------
     19
     20截止本文撰写时,在The RISC-V ISA Privileged Version 1.10中提到的 perf_event
     21相关特性如下:
     22(详情请查阅手册)
     23
     24* [m|s]counteren
     25* mcycle[h], cycle[h]
     26* minstret[h], instret[h]
     27* mhpeventx, mhpcounterx[h]
     28
     29仅有以上这些功能,移植perf需要做很多工作,究其原因是缺少以下通用架构的性能
     30监测特性:
     31
     32* 启用/停用计数器
     33  在我们这里,计数器一直在自由运行。
     34* 计数器溢出引起的中断
     35  规范中没有这种功能。
     36* 中断指示器
     37  不可能所有的计数器都有很多的中断端口,所以需要一个中断指示器让软件来判断
     38  哪个计数器刚好溢出。
     39* 写入计数器
     40  由于内核不能修改计数器,所以会有一个SBI来支持这个功能[1]。 另外,一些厂商
     41  考虑实现M-S-U型号机器的硬件扩展来直接写入计数器。
     42
     43这篇文档旨在为开发者提供一个在内核中支持PMU的简要指南。下面的章节简要解释了
     44perf' 机制和待办事项。
     45
     46你可以在这里查看以前的讨论[1][2]。 另外,查看附录中的相关内核结构体可能会有
     47帮助。
     48
     49
     501. 初始化
     51---------
     52
     53*riscv_pmu* 是一个类型为 *struct riscv_pmu* 的全局指针,它包含了根据perf内部
     54约定的各种方法和PMU-specific参数。人们应该声明这样的实例来代表PMU。 默认情况
     55下, *riscv_pmu* 指向一个常量结构体 *riscv_base_pmu* ,它对基准QEMU模型有非常
     56基础的支持。
     57
     58
     59然后他/她可以将实例的指针分配给 *riscv_pmu* ,这样就可以利用已经实现的最小逻
     60辑,或者创建他/她自己的 *riscv_init_platform_pmu* 实现。
     61
     62换句话说,现有的 *riscv_base_pmu* 源只是提供了一个参考实现。 开发者可以灵活地
     63决定多少部分可用,在最极端的情况下,他们可以根据自己的需要定制每一个函数。
     64
     65
     662. Event Initialization
     67-----------------------
     68
     69当用户启动perf命令来监控一些事件时,首先会被用户空间的perf工具解释为多个
     70*perf_event_open* 系统调用,然后进一步调用上一步分配的 *event_init* 成员函数
     71的主体。 在 *riscv_base_pmu* 的情况下,就是 *riscv_event_init* 。
     72
     73该功能的主要目的是将用户提供的事件翻译成映射图,从而可以直接对HW-related的控
     74制寄存器或计数器进行操作。该翻译基于 *riscv_pmu* 中提供的映射和方法。
     75
     76注意,有些功能也可以在这个阶段完成:
     77
     78(1) 中断设置,这个在下一节说;
     79(2) 特限级设置(仅用户空间、仅内核空间、两者都有);
     80(3) 析构函数设置。 通常应用 *riscv_destroy_event* 即可;
     81(4) 对非采样事件的调整,这将被函数应用,如 *perf_adjust_period* ,通常如下::
     82
     83      if (!is_sampling_event(event)) {
     84              hwc->sample_period = x86_pmu.max_period;
     85              hwc->last_period = hwc->sample_period;
     86              local64_set(&hwc->period_left, hwc->sample_period);
     87      }
     88
     89
     90在 *riscv_base_pmu* 的情况下,目前只提供了(3)。
     91
     92
     933. 中断
     94-------
     95
     963.1. 中断初始化
     97
     98这种情况经常出现在 *event_init* 方案的开头。通常情况下,这应该是一个代码段,如::
     99
    100  int x86_reserve_hardware(void)
    101  {
    102        int err = 0;
    103
    104        if (!atomic_inc_not_zero(&pmc_refcount)) {
    105                mutex_lock(&pmc_reserve_mutex);
    106                if (atomic_read(&pmc_refcount) == 0) {
    107                        if (!reserve_pmc_hardware())
    108                                err = -EBUSY;
    109                        else
    110                                reserve_ds_buffers();
    111                }
    112                if (!err)
    113                        atomic_inc(&pmc_refcount);
    114                mutex_unlock(&pmc_reserve_mutex);
    115        }
    116
    117        return err;
    118  }
    119
    120而神奇的是 *reserve_pmc_hardware* ,它通常做原子操作,使实现的IRQ可以从某个全局函
    121数指针访问。 而 *release_pmc_hardware* 的作用正好相反,它用在上一节提到的事件分配
    122器中。
    123
    124 (注:从所有架构的实现来看,*reserve/release* 对总是IRQ设置,所以 *pmc_hardware*
    125 似乎有些误导。 它并不处理事件和物理计数器之间的绑定,这一点将在下一节介绍。)
    126
    1273.2. IRQ结构体
    128
    129基本上,一个IRQ运行以下伪代码::
    130
    131  for each hardware counter that triggered this overflow
    132
    133      get the event of this counter
    134
    135      // following two steps are defined as *read()*,
    136      // check the section Reading/Writing Counters for details.
    137      count the delta value since previous interrupt
    138      update the event->count (# event occurs) by adding delta, and
    139                 event->hw.period_left by subtracting delta
    140
    141      if the event overflows
    142          sample data
    143          set the counter appropriately for the next overflow
    144
    145          if the event overflows again
    146              too frequently, throttle this event
    147          fi
    148      fi
    149
    150  end for
    151
    152 然而截至目前,没有一个RISC-V的实现为perf设计了中断,所以具体的实现要在未来完成。
    153
    1544. Reading/Writing 计数
    155-----------------------
    156
    157它们看似差不多,但perf对待它们的态度却截然不同。 对于读,在 *struct pmu* 中有一个
    158*read* 接口,但它的作用不仅仅是读。 根据上下文,*read* 函数不仅要读取计数器的内容
    159(event->count),还要更新左周期到下一个中断(event->hw.period_left)。
    160
    161 但 perf 的核心不需要直接写计数器。 写计数器隐藏在以下两点的抽象化之后,
    162 1) *pmu->start* ,从字面上看就是开始计数,所以必须把计数器设置成一个合适的值,以
    163 便下一次中断;
    164 2)在IRQ里面,应该把计数器设置成同样的合理值。
    165
    166在RISC-V中,读操作不是问题,但写操作就需要费些力气了,因为S模式不允许写计数器。
    167
    168
    1695. add()/del()/start()/stop()
    170-----------------------------
    171
    172基本思想: add()/del() 向PMU添加/删除事件,start()/stop() 启动/停止PMU中某个事件
    173的计数器。 所有这些函数都使用相同的参数: *struct perf_event *event* 和 *int flag* 。
    174
    175把 perf 看作一个状态机,那么你会发现这些函数作为这些状态之间的状态转换过程。
    176定义了三种状态(event->hw.state):
    177
    178* PERF_HES_STOPPED:	计数停止
    179* PERF_HES_UPTODATE:	event->count是最新的
    180* PERF_HES_ARCH:	依赖于体系结构的用法,。。。我们现在并不需要它。
    181
    182这些状态转换的正常流程如下:
    183
    184* 用户启动一个 perf 事件,导致调用 *event_init* 。
    185* 当被上下文切换进来的时候,*add* 会被 perf core 调用,并带有一个标志 PERF_EF_START,
    186  也就是说事件被添加后应该被启动。 在这个阶段,如果有的话,一般事件会被绑定到一个物
    187  理计数器上。当状态变为PERF_HES_STOPPED和PERF_HES_UPTODATE,因为现在已经停止了,
    188  (软件)事件计数不需要更新。
    189
    190  - 然后调用 *start* ,并启用计数器。
    191    通过PERF_EF_RELOAD标志,它向计数器写入一个适当的值(详细情况请参考上一节)。
    192    如果标志不包含PERF_EF_RELOAD,则不会写入任何内容。
    193    现在状态被重置为none,因为它既没有停止也没有更新(计数已经开始)。
    194
    195*当被上下文切换出来时被调用。 然后,它检查出PMU中的所有事件,并调用 *stop* 来更新它们
    196 的计数。
    197
    198  - *stop* 被 *del* 和perf核心调用,标志为PERF_EF_UPDATE,它经常以相同的逻辑和 *read*
    199    共用同一个子程序。
    200    状态又一次变为PERF_HES_STOPPED和PERF_HES_UPTODATE。
    201
    202  - 这两对程序的生命周期: *add* 和 *del* 在任务切换时被反复调用;*start* 和 *stop* 在
    203    perf核心需要快速停止和启动时也会被调用,比如在调整中断周期时。
    204
    205目前的实现已经足够了,将来可以很容易地扩展到功能。
    206
    207A. 相关结构体
    208-------------
    209
    210* struct pmu: include/linux/perf_event.h
    211* struct riscv_pmu: arch/riscv/include/asm/perf_event.h
    212
    213  两个结构体都被设计为只读。
    214
    215  *struct pmu* 定义了一些函数指针接口,它们大多以 *struct perf_event* 作为主参数,根据
    216  perf的内部状态机处理perf事件(详情请查看kernel/events/core.c)。
    217
    218  *struct riscv_pmu* 定义了PMU的具体参数。 命名遵循所有其它架构的惯例。
    219
    220* struct perf_event: include/linux/perf_event.h
    221* struct hw_perf_event
    222
    223  表示 perf 事件的通用结构体,以及硬件相关的细节。
    224
    225* struct riscv_hw_events: arch/riscv/include/asm/perf_event.h
    226
    227  保存事件状态的结构有两个固定成员。
    228  事件的数量和事件的数组。
    229
    230参考文献
    231--------
    232
    233[1] https://github.com/riscv/riscv-linux/pull/124
    234
    235[2] https://groups.google.com/a/groups.riscv.org/forum/#!topic/sw-dev/f19TmCNP6yA