pmu.rst (9137B)
1.. include:: ../disclaimer-zh_CN.rst 2 3:Original: Documentation/riscv/pmu.rst 4 5:翻译: 6 7 司延腾 Yanteng Si <siyanteng@loongson.cn> 8 9.. _cn_riscv_pmu: 10 11======================== 12RISC-V平台上对PMUs的支持 13======================== 14 15Alan Kao <alankao@andestech.com>, Mar 2018 16 17简介 18------------ 19 20截止本文撰写时,在The RISC-V ISA Privileged Version 1.10中提到的 perf_event 21相关特性如下: 22(详情请查阅手册) 23 24* [m|s]counteren 25* mcycle[h], cycle[h] 26* minstret[h], instret[h] 27* mhpeventx, mhpcounterx[h] 28 29仅有以上这些功能,移植perf需要做很多工作,究其原因是缺少以下通用架构的性能 30监测特性: 31 32* 启用/停用计数器 33 在我们这里,计数器一直在自由运行。 34* 计数器溢出引起的中断 35 规范中没有这种功能。 36* 中断指示器 37 不可能所有的计数器都有很多的中断端口,所以需要一个中断指示器让软件来判断 38 哪个计数器刚好溢出。 39* 写入计数器 40 由于内核不能修改计数器,所以会有一个SBI来支持这个功能[1]。 另外,一些厂商 41 考虑实现M-S-U型号机器的硬件扩展来直接写入计数器。 42 43这篇文档旨在为开发者提供一个在内核中支持PMU的简要指南。下面的章节简要解释了 44perf' 机制和待办事项。 45 46你可以在这里查看以前的讨论[1][2]。 另外,查看附录中的相关内核结构体可能会有 47帮助。 48 49 501. 初始化 51--------- 52 53*riscv_pmu* 是一个类型为 *struct riscv_pmu* 的全局指针,它包含了根据perf内部 54约定的各种方法和PMU-specific参数。人们应该声明这样的实例来代表PMU。 默认情况 55下, *riscv_pmu* 指向一个常量结构体 *riscv_base_pmu* ,它对基准QEMU模型有非常 56基础的支持。 57 58 59然后他/她可以将实例的指针分配给 *riscv_pmu* ,这样就可以利用已经实现的最小逻 60辑,或者创建他/她自己的 *riscv_init_platform_pmu* 实现。 61 62换句话说,现有的 *riscv_base_pmu* 源只是提供了一个参考实现。 开发者可以灵活地 63决定多少部分可用,在最极端的情况下,他们可以根据自己的需要定制每一个函数。 64 65 662. Event Initialization 67----------------------- 68 69当用户启动perf命令来监控一些事件时,首先会被用户空间的perf工具解释为多个 70*perf_event_open* 系统调用,然后进一步调用上一步分配的 *event_init* 成员函数 71的主体。 在 *riscv_base_pmu* 的情况下,就是 *riscv_event_init* 。 72 73该功能的主要目的是将用户提供的事件翻译成映射图,从而可以直接对HW-related的控 74制寄存器或计数器进行操作。该翻译基于 *riscv_pmu* 中提供的映射和方法。 75 76注意,有些功能也可以在这个阶段完成: 77 78(1) 中断设置,这个在下一节说; 79(2) 特限级设置(仅用户空间、仅内核空间、两者都有); 80(3) 析构函数设置。 通常应用 *riscv_destroy_event* 即可; 81(4) 对非采样事件的调整,这将被函数应用,如 *perf_adjust_period* ,通常如下:: 82 83 if (!is_sampling_event(event)) { 84 hwc->sample_period = x86_pmu.max_period; 85 hwc->last_period = hwc->sample_period; 86 local64_set(&hwc->period_left, hwc->sample_period); 87 } 88 89 90在 *riscv_base_pmu* 的情况下,目前只提供了(3)。 91 92 933. 中断 94------- 95 963.1. 中断初始化 97 98这种情况经常出现在 *event_init* 方案的开头。通常情况下,这应该是一个代码段,如:: 99 100 int x86_reserve_hardware(void) 101 { 102 int err = 0; 103 104 if (!atomic_inc_not_zero(&pmc_refcount)) { 105 mutex_lock(&pmc_reserve_mutex); 106 if (atomic_read(&pmc_refcount) == 0) { 107 if (!reserve_pmc_hardware()) 108 err = -EBUSY; 109 else 110 reserve_ds_buffers(); 111 } 112 if (!err) 113 atomic_inc(&pmc_refcount); 114 mutex_unlock(&pmc_reserve_mutex); 115 } 116 117 return err; 118 } 119 120而神奇的是 *reserve_pmc_hardware* ,它通常做原子操作,使实现的IRQ可以从某个全局函 121数指针访问。 而 *release_pmc_hardware* 的作用正好相反,它用在上一节提到的事件分配 122器中。 123 124 (注:从所有架构的实现来看,*reserve/release* 对总是IRQ设置,所以 *pmc_hardware* 125 似乎有些误导。 它并不处理事件和物理计数器之间的绑定,这一点将在下一节介绍。) 126 1273.2. IRQ结构体 128 129基本上,一个IRQ运行以下伪代码:: 130 131 for each hardware counter that triggered this overflow 132 133 get the event of this counter 134 135 // following two steps are defined as *read()*, 136 // check the section Reading/Writing Counters for details. 137 count the delta value since previous interrupt 138 update the event->count (# event occurs) by adding delta, and 139 event->hw.period_left by subtracting delta 140 141 if the event overflows 142 sample data 143 set the counter appropriately for the next overflow 144 145 if the event overflows again 146 too frequently, throttle this event 147 fi 148 fi 149 150 end for 151 152 然而截至目前,没有一个RISC-V的实现为perf设计了中断,所以具体的实现要在未来完成。 153 1544. Reading/Writing 计数 155----------------------- 156 157它们看似差不多,但perf对待它们的态度却截然不同。 对于读,在 *struct pmu* 中有一个 158*read* 接口,但它的作用不仅仅是读。 根据上下文,*read* 函数不仅要读取计数器的内容 159(event->count),还要更新左周期到下一个中断(event->hw.period_left)。 160 161 但 perf 的核心不需要直接写计数器。 写计数器隐藏在以下两点的抽象化之后, 162 1) *pmu->start* ,从字面上看就是开始计数,所以必须把计数器设置成一个合适的值,以 163 便下一次中断; 164 2)在IRQ里面,应该把计数器设置成同样的合理值。 165 166在RISC-V中,读操作不是问题,但写操作就需要费些力气了,因为S模式不允许写计数器。 167 168 1695. add()/del()/start()/stop() 170----------------------------- 171 172基本思想: add()/del() 向PMU添加/删除事件,start()/stop() 启动/停止PMU中某个事件 173的计数器。 所有这些函数都使用相同的参数: *struct perf_event *event* 和 *int flag* 。 174 175把 perf 看作一个状态机,那么你会发现这些函数作为这些状态之间的状态转换过程。 176定义了三种状态(event->hw.state): 177 178* PERF_HES_STOPPED: 计数停止 179* PERF_HES_UPTODATE: event->count是最新的 180* PERF_HES_ARCH: 依赖于体系结构的用法,。。。我们现在并不需要它。 181 182这些状态转换的正常流程如下: 183 184* 用户启动一个 perf 事件,导致调用 *event_init* 。 185* 当被上下文切换进来的时候,*add* 会被 perf core 调用,并带有一个标志 PERF_EF_START, 186 也就是说事件被添加后应该被启动。 在这个阶段,如果有的话,一般事件会被绑定到一个物 187 理计数器上。当状态变为PERF_HES_STOPPED和PERF_HES_UPTODATE,因为现在已经停止了, 188 (软件)事件计数不需要更新。 189 190 - 然后调用 *start* ,并启用计数器。 191 通过PERF_EF_RELOAD标志,它向计数器写入一个适当的值(详细情况请参考上一节)。 192 如果标志不包含PERF_EF_RELOAD,则不会写入任何内容。 193 现在状态被重置为none,因为它既没有停止也没有更新(计数已经开始)。 194 195*当被上下文切换出来时被调用。 然后,它检查出PMU中的所有事件,并调用 *stop* 来更新它们 196 的计数。 197 198 - *stop* 被 *del* 和perf核心调用,标志为PERF_EF_UPDATE,它经常以相同的逻辑和 *read* 199 共用同一个子程序。 200 状态又一次变为PERF_HES_STOPPED和PERF_HES_UPTODATE。 201 202 - 这两对程序的生命周期: *add* 和 *del* 在任务切换时被反复调用;*start* 和 *stop* 在 203 perf核心需要快速停止和启动时也会被调用,比如在调整中断周期时。 204 205目前的实现已经足够了,将来可以很容易地扩展到功能。 206 207A. 相关结构体 208------------- 209 210* struct pmu: include/linux/perf_event.h 211* struct riscv_pmu: arch/riscv/include/asm/perf_event.h 212 213 两个结构体都被设计为只读。 214 215 *struct pmu* 定义了一些函数指针接口,它们大多以 *struct perf_event* 作为主参数,根据 216 perf的内部状态机处理perf事件(详情请查看kernel/events/core.c)。 217 218 *struct riscv_pmu* 定义了PMU的具体参数。 命名遵循所有其它架构的惯例。 219 220* struct perf_event: include/linux/perf_event.h 221* struct hw_perf_event 222 223 表示 perf 事件的通用结构体,以及硬件相关的细节。 224 225* struct riscv_hw_events: arch/riscv/include/asm/perf_event.h 226 227 保存事件状态的结构有两个固定成员。 228 事件的数量和事件的数组。 229 230参考文献 231-------- 232 233[1] https://github.com/riscv/riscv-linux/pull/124 234 235[2] https://groups.google.com/a/groups.riscv.org/forum/#!topic/sw-dev/f19TmCNP6yA