Linux 调度器中的远程抢占：smp_send_reschedule 的实现与应用

本文深入解析了Linux内核的远程抢占机制，重点探讨了smp_send_reschedule函数的实现原理。在多核处理器架构中，当高优先级任务需要唤醒时，该机制通过处理器间中断（IPI）触发目标CPU的重新调度。文章详细介绍了IPI的工作机制、调度类优先级、关键数据结构，并提供了多个实际案例演示如何监控和优化远程抢占行为。通过内核模块、perf工具和ftrace等技术，读者可以深入理解从try_t

望获linux

284人浏览 · 2026-03-25 15:03:34

望获linux · 2026-03-25 15:03:34 发布

一、简介

在现代多核处理器架构中，对称多处理（SMP, Symmetric Multi-Processing） 已成为服务器、桌面乃至移动设备的标准配置。Linux内核作为支持最广泛硬件平台的操作系统，其调度器必须高效地协调多个CPU核心上的任务分配，以实现负载均衡、实时响应和能效优化。

远程抢占（Remote Preemption） 是Linux调度子系统的核心机制之一。当某个CPU核心（源CPU）唤醒了一个高优先级任务，而该任务的目标运行CPU正在执行低优先级任务时，调度器需要一种机制来通知目标CPU立即进行重新调度。这种跨CPU的通知机制正是通过 处理器间中断（IPI, Inter-Processor Interrupt） 实现的，而 smp_send_reschedule 就是触发这一远程抢占的关键函数。

掌握远程抢占机制对于以下场景至关重要：

实时系统开发：确保硬实时任务在微秒级延迟内得到响应
虚拟化性能优化：减少vCPU之间的调度延迟（如KVM/QEMU环境）
内核性能调优：分析 /proc/interrupts 中的 Rescheduling Interrupts 统计
异构计算：在ARM big.LITTLE或Intel hybrid架构中优化任务迁移

本文将从源码层面深入解析 smp_send_reschedule 的实现逻辑，通过实际案例演示如何监控和优化远程抢占行为，为读者提供可复现的实验环境和调试技巧。

二、核心概念

2.1 处理器间中断（IPI）

IPI 是SMP架构中CPU核心之间通信的基石。与外部设备触发的中断不同，IPI由CPU自身通过 本地高级可编程中断控制器（Local APIC） 发送给系统中的其他CPU。在Linux内核中，IPI主要用于以下场景：

IPI类型	用途	处理函数
`RESCHEDULE_VECTOR`	触发远程CPU重新调度	`scheduler_ipi()`
`CALL_FUNCTION_VECTOR`	请求远程CPU执行指定函数	`generic_smp_call_function_interrupt()`
`CALL_FUNCTION_SINGLE_VECTOR`	请求单个远程CPU执行函数	`generic_smp_call_function_single_interrupt()`
`TLB_SHOOTDOWN_VECTOR`	TLB刷新同步	`flush_tlb_func()`

2.2 唤醒抢占（Wakeup Preemption）

当任务从睡眠状态被唤醒时，调度器需要决定：

选择目标CPU：通过 select_task_rq 选择最适合运行该任务的CPU
检查抢占条件：如果目标CPU正在运行低优先级任务，触发抢占
同步vs异步唤醒：
- 同步唤醒：源CPU与目标CPU共享最后一级缓存（LLC），直接在本地上下文完成唤醒和抢占检查
- 异步唤醒：跨缓存域唤醒，通过 smp_send_reschedule 发送IPI，在目标CPU的中断上下文中完成后续操作

2.3 关键数据结构

// include/linux/sched.h
struct task_struct {
    int prio;                    // 动态优先级
    int static_prio;             // 静态优先级（nice值）
    const struct sched_class *sched_class;  // 调度类
    unsigned int policy;         // 调度策略（SCHED_FIFO/RR/OTHER等）
    struct sched_entity se;      // CFS调度实体
    struct sched_rt_entity rt;   // RT调度实体
    // ...
};

// kernel/sched/sched.h
struct rq {
    raw_spinlock_t lock;
    unsigned int nr_running;     // 可运行任务数
    struct task_struct *curr;    // 当前运行任务
    struct task_struct *idle;    // idle线程
    u64 clock;                   // 运行队列时钟
    // ...
};

2.4 调度类优先级

Linux调度器采用模块化设计，调度类按优先级从高到低排列：

stop_sched_class：停止类（最高优先级，用于任务迁移）
dl_sched_class：截止时间调度类（Deadline）
rt_sched_class：实时调度类（FIFO/RR）
fair_sched_class：完全公平调度类（CFS，默认）
idle_sched_class：空闲调度类（最低优先级）

三、环境准备

3.1 硬件与软件要求

项目	最低配置	推荐配置
CPU	x86_64双核或ARM64双核	Intel i7+/AMD Ryzen 7+ 或 Apple Silicon M1+
内存	4GB	8GB+
操作系统	Linux 5.4+	Linux 6.1+（长期支持版）
内核源码	对应版本	linux-6.6或更新版本
调试工具	perf, bpftool	ftrace, trace-cmd, kernelshark

3.2 内核编译与配置

# 1. 下载内核源码
wget https://cdn.kernel.org/pub/linux/kernel/v6.x/linux-6.6.tar.xz
tar -xf linux-6.6.tar.xz
cd linux-6.6

# 2. 配置内核选项（关键配置）
make menuconfig

# 必须开启的选项：
# General setup -> [*] Prompt for development and/or incomplete code/drivers
# Kernel hacking -> Tracers -> [*] Kernel Function Tracer
# Kernel hacking -> Tracers -> [*] Schedule tracer
# Kernel hacking -> Tracers -> [*] Enable trace events for preemptirqsoff
# General setup -> [*] Profiling support

# 3. 编译并安装
make -j$(nproc)
sudo make modules_install
sudo make install

# 4. 重启进入新内核
sudo reboot

3.3 调试工具安装

# Ubuntu/Debian
sudo apt-get install linux-tools-common linux-tools-generic trace-cmd kernelshark bpfcc-tools

# CentOS/RHEL/Fedora
sudo dnf install perf trace-cmd kernelshark bpftools

# 验证perf版本
perf --version

四、应用场景

远程抢占机制在以下具体场景中发挥关键作用：

场景一：高性能网络处理
在DPDK或XDP（eXpress Data Path）应用中，网卡中断通常绑定到特定CPU核心。当数据包到达时，如果对应的处理线程正在其他核心上睡眠，内核需要立即唤醒该线程。若目标核心正在运行低优先级后台任务，通过 smp_send_reschedule 发送的IPI可强制目标核心立即切换上下文，确保网络包在微秒级内得到处理，避免延迟累积。

场景二：实时音视频处理
在视频会议系统中，音频采集线程通常具有实时优先级（SCHED_FIFO）。当音频缓冲区需要填充时，如果该线程被迁移到了正在执行批量压缩任务的核心上，远程抢占机制确保音频线程在毫秒级延迟内抢占CPU，防止音频卡顿。内核通过检查 check_preempt_curr 判断实时任务的优先级差异，触发跨核心的IPI中断。

场景三：虚拟化环境中的vCPU调度
在KVM虚拟化中，每个vCPU对应一个宿主机的任务。当Guest OS中的I/O完成中断到达时，如果对应的vCPU线程不在运行状态，宿主机的Anubis等调度优化框架会利用 smp_send_reschedule 机制，通过中断重定向和IPI boosting技术，将vCPU立即调度到合适的物理核心，显著降低I/O延迟。

场景四：异构多核负载均衡
在ARM big.LITTLE架构中，高性能核心（big）与能效核心（LITTLE）组成异构系统。当轻量级任务突然变为计算密集型时，调度器决定将其迁移到big核心。如果目标big核心正在运行低优先级后台任务，通过远程抢占IPI通知该核心立即重新调度，确保任务迁移的及时性，避免性能抖动。

五、实际案例与步骤

5.1 案例一：观察Rescheduling IPI的触发

目标：通过 perf 工具监控 smp_send_reschedule 的调用频率和触发源。

# 1. 查看当前系统的IPI统计
cat /proc/interrupts | grep -E "(RES|IPI)"

# 示例输出：
# RES:    123456    234567    345678    456789   Rescheduling interrupts
# CAL:      1000      2000      3000      4000   Function call interrupts
# TLB:       500       600       700       800   TLB shootdowns

# 2. 使用perf trace捕获smp_send_reschedule调用
sudo perf trace -e 'irq_vectors:*' -e 'sched:sched_wakeup*' -- sleep 10

# 3. 更精确的跟踪：捕获发送和接收端
sudo perf record -e 'irq_vectors:reschedule_entry' \
                 -e 'irq_vectors:reschedule_exit' \
                 -e 'sched:sched_wakeup' \
                 -e 'sched:sched_switch' \
                 --all-cpus -- sleep 5

# 4. 分析结果
sudo perf report --sort=cpu,dso,symbol

# 5. 实时监控（每2秒刷新）
watch -n 2 'cat /proc/interrupts | grep RES'

代码说明：

/proc/interrupts 中的 RES 行显示每个CPU接收到的Rescheduling IPI数量
irq_vectors:reschedule_entry 追踪目标CPU接收IPI的入口
sched:sched_wakeup 追踪任务唤醒事件，可与IPI事件关联分析

5.2 案例二：分析远程抢占的触发条件

目标：编写内核模块，演示 try_to_wake_up 到 smp_send_reschedule 的调用链。

// remote_preempt_tracer.c
// 内核模块：追踪远程抢占的触发点

#include <linux/module.h>
#include <linux/kprobes.h>
#include <linux/sched.h>
#include <linux/smp.h>

static struct kprobe kp_ttwu, kp_resched;

// 探针1：try_to_wake_up入口
static int handler_ttwu(struct kprobe *p, struct pt_regs *regs)
{
    struct task_struct *p_task = (struct task_struct *)regs->di; // x86_64参数1
    int cpu = smp_processor_id();
    
    // 检查是否是远程唤醒（目标CPU != 当前CPU）
    int target_cpu = task_cpu(p_task);
    
    if (target_cpu != cpu) {
        printk(KERN_INFO "[TTWU] CPU%d waking up %s[%d] on CPU%d\n",
               cpu, p_task->comm, p_task->pid, target_cpu);
    }
    return 0;
}

// 探针2：smp_send_reschedule入口
static int handler_resched(struct kprobe *p, struct pt_regs *regs)
{
    int target_cpu = (int)regs->di; // x86_64参数：目标CPU
    
    printk(KERN_INFO "[RESCHED IPI] CPU%d sending reschedule IPI to CPU%d\n",
           smp_processor_id(), target_cpu);
    
    // 打印当前运行的任务和栈回溯
    printk(KERN_INFO "  Current task: %s[%d]\n", 
           current->comm, current->pid);
    
    dump_stack(); // 打印调用栈
    return 0;
}

static int __init tracer_init(void)
{
    int ret;
    
    // 设置try_to_wake_up探针
    kp_ttwu.symbol_name = "try_to_wake_up";
    kp_ttwu.pre_handler = handler_ttwu;
    ret = register_kprobe(&kp_ttwu);
    if (ret < 0) {
        pr_err("register_kprobe(twtwu) failed: %d\n", ret);
        return ret;
    }
    
    // 设置smp_send_reschedule探针
    kp_resched.symbol_name = "smp_send_reschedule";
    kp_resched.pre_handler = handler_resched;
    ret = register_kprobe(&kp_resched);
    if (ret < 0) {
        pr_err("register_kprobe(resched) failed: %d\n", ret);
        unregister_kprobe(&kp_ttwu);
        return ret;
    }
    
    pr_info("Remote preemption tracer loaded\n");
    return 0;
}

static void __exit tracer_exit(void)
{
    unregister_kprobe(&kp_ttwu);
    unregister_kprobe(&kp_resched);
    pr_info("Remote preemption tracer unloaded\n");
}

module_init(tracer_init);
module_exit(tracer_exit);
MODULE_LICENSE("GPL");
MODULE_AUTHOR("Linux Kernel Developer");
MODULE_DESCRIPTION("Trace remote preemption via IPI");

Makefile：

# Makefile for remote_preempt_tracer.ko

KDIR ?= /lib/modules/$(shell uname -r)/build
PWD := $(shell pwd)

obj-m += remote_preempt_tracer.o

all:
	make -C $(KDIR) M=$(PWD) modules

clean:
	make -C $(KDIR) M=$(PWD) clean

load:
	sudo insmod remote_preempt_tracer.ko
	sudo dmesg -c

unload:
	sudo rmmod remote_preempt_tracer
	sudo dmesg

编译与测试：

# 编译模块
make

# 加载模块
sudo insmod remote_preempt_tracer.ko

# 生成负载：创建跨CPU唤醒的场景
# 终端1：绑定到CPU0运行高优先级任务
sudo taskset -c 0 sh -c 'while :; do :; done' &
PID1=$!

# 终端2：绑定到CPU1，唤醒CPU0上的任务
sudo taskset -c 1 bash -c "
    for i in {1..10}; do
        # 向CPU0上的任务发送信号，触发唤醒
        kill -CONT $PID1
        usleep 100000
    done
"

# 查看日志
sudo dmesg | grep -E "(TTWU|RESCHED)"

# 清理
kill $PID1
sudo rmmod remote_preempt_tracer

5.3 案例三：理解 `scheduler_ipi` 的处理流程

目标：分析目标CPU接收IPI后的处理逻辑。

# 使用ftrace跟踪scheduler_ipi的执行
sudo trace-cmd start -p function_graph -l scheduler_ipi -l sched_ttwu_pending

# 运行负载测试
stress-ng --cpu 4 --timeout 10s

# 停止跟踪并查看结果
sudo trace-cmd stop
sudo trace-cmd report | head -100

# 更详细的跟踪：包含try_to_wake_up相关函数
sudo trace-cmd start -p function_graph \
    -g try_to_wake_up \
    -g scheduler_ipi \
    -g smp_send_reschedule

# 查看图形化输出
sudo trace-cmd report -G | less

关键代码路径分析（基于Linux 6.6内核）：

// kernel/sched/core.c

/*
 * scheduler_ipi - 处理远程CPU发送的reschedule IPI
 * 
 * 这是异步唤醒的下半部分，在目标CPU的中断上下文中执行
 */
void scheduler_ipi(void)
{
    /*
     * 必须禁用中断，因为我们正在操作Per-CPU的wake_list
     */
    irq_enter_rcu();
    
    /*
     * 处理pending的唤醒任务
     * 这些任务由其他CPU通过ttwu_queue_remote加入
     */
    sched_ttwu_pending();
    
    /*
     * 检查是否需要重新调度
     * 如果TIF_NEED_RESCHED被设置，则在irq_exit时触发调度
     */
    irq_exit_rcu();
}

/*
 * sched_ttwu_pending - 处理唤醒队列中的任务
 */
static void sched_ttwu_pending(void)
{
    struct rq *rq = this_rq();
    struct llist_node *llist = llist_del_all(&rq->wake_list);
    struct task_struct *p, *t;
    
    // 遍历所有pending的唤醒任务
    llist_for_each_entry_safe(p, t, llist, wake_entry) {
        // 将任务激活并加入运行队列
        ttwu_do_activate(rq, p, p->wake_flags, ENQUEUE_NOCLOCK);
    }
}

/*
 * ttwu_do_activate -> ttwu_do_wakeup -> check_preempt_curr
 * 最终检查是否需要抢占当前运行任务
 */
static void ttwu_do_wakeup(struct rq *rq, struct task_struct *p, int wake_flags)
{
    // 检查是否触发唤醒抢占
    check_preempt_curr(rq, p, wake_flags);
    
    // 如果被唤醒的是高优先级任务，设置TIF_NEED_RESCHED
    if (p->sched_class != rq->curr->sched_class ||
        p->prio < rq->curr->prio) {
        resched_curr(rq);
    }
}

5.4 案例四：x86_64架构的IPI发送实现

目标：深入 arch/x86/kernel/smp.c 了解硬件层面的IPI发送机制。

// arch/x86/kernel/smp.c

/*
 * smp_send_reschedule - 向指定CPU发送重新调度IPI
 * @cpu: 目标CPU
 * 
 * 这是架构相关的实现，通过Local APIC发送IPI
 */
void smp_send_reschedule(int cpu)
{
    // 调用native_smp_send_reschedule（非虚拟化环境）
    if (likely(x86_platform_ipi_callback == NULL)) {
        apic->send_IPI_mask(cpumask_of(cpu), RESCHEDULE_VECTOR);
    } else {
        // 虚拟化环境（如Xen）的特殊处理
        x86_platform_ipi_callback(cpu);
    }
}

/*
 * native_smp_send_reschedule - 原生x86实现
 * 通过写APIC的ICR（Interrupt Command Register）寄存器发送IPI
 */
static inline void __default_send_IPI_dest_field(unsigned int mask, 
                                                  int vector, 
                                                  unsigned int dest)
{
    u32 cfg;
    
    // 构造ICR值：包含目标CPU掩码和向量号
    cfg = __prepare_ICR(mask, vector, dest);
    
    // 写入ICR寄存器，触发硬件IPI
    native_apic_mem_write(APIC_ICR, cfg);
}

// ICR寄存器位定义（arch/x86/include/asm/apicdef.h）
#define APIC_ICR_VECTOR     0x000000FF  // 向量号（0-255）
#define APIC_ICR_DEST_MASK  0x00000000  // 目标模式
#define APIC_ICR_DEST_FIELD 0x000C0000  // 目标字段
#define APIC_ICR_SEND_PENDING 0x00001000 // 发送状态位

验证ICR寄存器写入：

# 使用msr-tools读取APIC相关MSR（需root权限）
sudo modprobe msr

# 读取x2APIC ICR寄存器（MSR 0x830）
sudo rdmsr -p 0 0x830  # CPU0的ICR
sudo rdmsr -p 1 0x830  # CPU1的ICR

# 注意：直接读取可能显示0，因为ICR是只写寄存器，发送后立即清除
# 更好的方法是通过tracepoints跟踪
sudo perf trace -e 'msr:*' -- sleep 5

六、常见问题与解答

Q1: 为什么 `/proc/interrupts` 中Rescheduling interrupts数值很高？是否表示系统有问题？

A: 不一定。Rescheduling interrupts高通常表示：

高并发场景：大量任务在多核间迁移，调度器频繁进行负载均衡
实时任务活跃：实时任务频繁唤醒，触发跨核抢占
电源管理：系统频繁进入/退出空闲状态（C-states），唤醒时触发IPI

诊断方法：

# 检查是否是特定进程导致
sudo perf top -e irq_vectors:reschedule_entry

# 查看调度延迟
sudo perf sched latency

# 如果数值异常高（如每秒数万次），检查BIOS设置或禁用C-states
sudo cpupower idle-set -D  # 禁用所有空闲状态进行测试

Q2: `smp_send_reschedule` 和 `resched_curr` 有什么区别？

A: 关键区别如下：

函数	调用场景	执行位置	是否发送IPI
`resched_curr`	本地或远程CPU需要重新调度	任意上下文	仅当目标CPU≠当前CPU且非idle polling时
`smp_send_reschedule`	专门用于远程CPU通知	任意上下文	总是发送IPI（通过APIC）

调用关系：

resched_curr(struct rq *rq)
    -> if (cpu != smp_processor_id()) 
        -> if (set_nr_and_not_polling(curr))
            -> smp_send_reschedule(cpu)  // 触发IPI

Q3: 如何减少不必要的Rescheduling IPI？

A: 优化策略包括：

# 1. 使用taskset绑定关键任务到特定CPU，减少跨核迁移
sudo taskset -c 0 ./high_priority_task

# 2. 调整调度域参数，减少负载均衡频率
sudo sysctl kernel.sched_migration_cost_ns=500000  # 默认500000ns

# 3. 对于实时任务，使用SCHED_FIFO并绑定CPU
sudo chrt -f 99 taskset -c 1 ./rt_task

# 4. 在虚拟化环境中，使用virtio-blk/dataplane减少IPI
# 配置vCPU pinning，避免vCPU在物理核间跳动

Q4: 为什么ARM架构的 `scheduler_ipi` 实现与x86不同？

A: 主要差异源于中断控制器架构：

x86: 使用Local APIC，IPI通过写MSR/内存映射寄存器发送，向量号0x20-0xFF可自定义
ARM: 使用GIC（Generic Interrupt Controller），SGI（Software Generated Interrupt）0-15用于IPI，其中SGI 0通常分配给reschedule

ARM64代码片段：

// arch/arm64/kernel/smp.c
void smp_send_reschedule(int cpu)
{
    // 通过GIC发送SGI（Software Generated Interrupt）
    // RESCHEDULE_IPI通常映射到SGI 0
    gic_send_sgi(cpu, RESCHEDULE_IPI);
}

Q5: 如何调试IPI丢失或延迟问题？

A: 使用trace-cmd捕获完整调度链：

# 1. 启用所有相关tracepoints
sudo trace-cmd start -e sched:sched_wakeup -e sched:sched_switch \
    -e irq_vectors:reschedule_entry -e irq_vectors:reschedule_exit \
    -e sched:sched_migrate_task

# 2. 复现问题场景
./workload_generator

# 3. 分析延迟
sudo trace-cmd report -t -l "sched_wakeup,sched_switch,reschedule_entry" | \
    awk '/sched_wakeup.*target_cpu=1/ { start=$1 } 
         /reschedule_entry.*cpu=1/ { end=$1; print "Delay: " (end-start)/1000 "us" }'

# 4. 使用kernelshark图形化分析
sudo kernelshark trace.dat

七、实践建议与最佳实践

7.1 性能优化建议

1. 减少跨NUMA节点的远程抢占：跨NUMA节点的IPI需要经过互联网络（如Intel UPI/AMD Infinity Fabric），延迟远高于同NUMA节点。优化策略：

// 在应用层使用numactl绑定内存和CPU
// numactl --membind=0 --cpunodebind=0 ./application

// 在内核模块中检查NUMA节点
int src_nid = cpu_to_node(src_cpu);
int dst_nid = cpu_to_node(dst_cpu);
if (src_nid != dst_nid) {
    // 避免跨NUMA唤醒，除非必要
    dst_cpu = find_cpu_in_node(src_nid, p);
}

2. 批量处理IPI：现代x86支持IPI multicast（通过APIC的cluster模式），但Linux内核默认使用点对点发送。在高频唤醒场景下，考虑合并多个唤醒请求：

// 伪代码：批量发送IPI
void smp_send_reschedule_batch(cpumask_t *mask)
{
    if (cpumask_weight(mask) > 1 && x2apic_enabled()) {
        // 使用cluster模式批量发送（如果硬件支持）
        apic->send_IPI_cluster(mask, RESCHEDULE_VECTOR);
    } else {
        // 回退到逐个发送
        for_each_cpu(cpu, mask)
            smp_send_reschedule(cpu);
    }
}

3. 避免idle polling时的IPI：当目标CPU处于idle状态且正在轮询时，无需发送IPI，直接设置标志位即可：

// kernel/sched/core.c: resched_curr
if (set_nr_and_not_polling(curr))
    smp_send_reschedule(cpu);
else
    trace_sched_wake_idle_without_ipi(cpu);

7.2 调试技巧

使用BPF跟踪IPI延迟：

// reschedule_latency.bpf.c
// 使用eBPF跟踪IPI发送和接收的延迟

#include <linux/bpf.h>
#include <linux/sched.h>
#include <bpf/bpf_helpers.h>
#include <bpf/bpf_tracing.h>

struct {
    __uint(type, BPF_MAP_TYPE_HASH);
    __uint(max_entries, 1024);
    __type(key, u32);    // CPU pair (src << 16 | dst)
    __type(value, u64);  // timestamp
} ipi_send_map;

SEC("kprobe/smp_send_reschedule")
int BPF_KPROBE(trace_send, int cpu)
{
    u32 key = ((u32)smp_processor_id() << 16) | (u32)cpu;
    u64 ts = bpf_ktime_get_ns();
    bpf_map_update_elem(&ipi_send_map, &key, &ts, BPF_ANY);
    return 0;
}

SEC("kprobe/scheduler_ipi")
int BPF_KPROBE(trace_recv)
{
    u32 cpu = bpf_get_smp_processor_id();
    // 遍历map查找发送到这个CPU的IPI
    // ... 计算并记录延迟
    return 0;
}

char LICENSE[] SEC("license") = "GPL";

编译和运行：

# 使用libbpf或bcc编译
clang -O2 -target bpf -c reschedule_latency.bpf.c -o reschedule_latency.o

# 加载BPF程序
sudo bpftool prog load reschedule_latency.o /sys/fs/bpf/reschedule_latency

# 查看输出
sudo cat /sys/kernel/debug/tracing/trace_pipe

7.3 内核配置优化

针对特定工作负载调整调度参数：

# /etc/sysctl.conf 或 /proc/sys/kernel/

# 增加实时任务运行时间（us）
kernel.sched_rt_runtime_us = 950000
kernel.sched_rt_period_us = 1000000

# 减少负载均衡开销（ns）
kernel.sched_migration_cost_ns = 250000  # 默认500000
kernel.sched_nr_migrate = 32             # 默认32

# 禁用不必要的调度统计（生产环境）
CONFIG_SCHEDSTATS=n

八、总结与应用场景

8.1 核心要点回顾

本文深入剖析了Linux调度子系统中的 远程抢占机制，核心要点包括：

触发条件：当高优先级任务被唤醒且目标CPU运行低优先级任务时，通过 check_preempt_curr 判断需要远程抢占
IPI机制：smp_send_reschedule 通过Local APIC（x86）或GIC（ARM）向目标CPU发送 RESCHEDULE_VECTOR 中断
异步处理：目标CPU在 scheduler_ipi 中断处理程序中完成任务的实际唤醒和抢占检查，减少跨CPU锁竞争
架构差异：x86使用APIC ICR寄存器，ARM使用GIC SGI，但上层语义一致