大量数据分批次处理简单实现思路

Hort@IT 字数: 2234 阅读耗时: 5 分钟 2025/08/01 2025/08/01 博客独享热度: 7 评论: 0

本文最后更新于 2025-08-01，文章内容可能已经过时。

一、实现思路

‌分页策略‌：使用分页，设置合理的分页大小(如1000条/页)
‌线程安全‌：使用同步机制或分布式锁保证多线程分页查询不重复不遗漏
‌性能优化‌：避免一次性加载所有数据，采用分批处理
‌异常处理‌：考虑网络中断等异常情况，实现重试机制

二、关键点说明

‌线程安全‌：使用ReentrantLock确保多线程环境下分页查询的顺序性
‌分页控制‌：通过volatile变量currentPage记录当前页码
‌性能优化‌：合理设置pageSize(建议500-2000之间)
‌异常处理‌：finally块确保锁一定会释放

三、示例

@Service
public class PageQueryService {
    private final ReentrantLock lock = new ReentrantLock();
    private volatile int currentPage = 1;
    
    /**
     * 线程安全的分页查询方法
     * @param pageSize 每页大小
     * @param queryWrapper 查询条件
     * @return 当前页数据
     */
    public <T> IPage<T> safePageQuery(int pageSize, QueryWrapper<T> queryWrapper) {
        lock.lock();
        try {
            Page<T> page = new Page<>(currentPage, pageSize);
            IPage<T> result = mapper.selectPage(page, queryWrapper);
            if (result.getRecords().isEmpty()) {
                return null; // 已查询完所有数据
            }
            currentPage++;
            return result;
        } finally {
            lock.unlock();
        }
    }
}

public void processAllData() {
    int pageSize = 1000; // 每页1000条
    QueryWrapper<YourEntity> wrapper = new QueryWrapper<>();
    // 可以添加查询条件
    // wrapper.eq("status", 1);

    while (true) {
        IPage<YourEntity> page = pageQueryService.safePageQuery(pageSize, wrapper);
        if (page == null || page.getRecords().isEmpty()) {
            break; // 所有数据已处理完
        }

        // 处理当前页数据
        processPageData(page.getRecords());
    }
}

private void processPageData(List<YourEntity> records) {
    // 实现你的业务逻辑
}

四、注意事项

大数据量查询建议添加合适的索引
考虑使用游标方式(Cursor)处理超大数据集
分布式环境下需要使用分布式锁替代ReentrantLock
长时间运行的任务需要添加断点续查机制