pg_bulkload

向 PostgreSQL 中高速加载数据

概览

扩展包名版本分类许可证语言
pg_bulkload3.1.23ETLBSD 3-ClauseC
ID扩展名BinLibLoadCreateTrustReloc模式
9830pg_bulkload-
相关扩展file_fdw aws_s3 db_migrator pg_fact_loader mysql_fdw oracle_fdw postgres_fdw pglogical

pg18 fixed by vonng

版本

类型仓库版本PG 大版本包名依赖
EXTPIGSTY3.1.231817161514pg_bulkload-
RPMPGDG3.1.231817161514pg_bulkload_$v-
DEBPIGSTY3.1.231817161514postgresql-$v-pg-bulkload-
OS / PGPG18PG17PG16PG15PG14
el8.x86_64
el8.aarch64
el9.x86_64
el9.aarch64
el10.x86_64
el10.aarch64
d12.x86_64
d12.aarch64
d13.x86_64
d13.aarch64
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
u22.x86_64
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
u22.aarch64
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
u24.x86_64
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
u24.aarch64
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23
PIGSTY 3.1.23

构建

您可以使用 pig build 命令构建 pg_bulkload 扩展的 RPM / DEB 包:

pig build pkg pg_bulkload         # 构建 RPM / DEB 包

安装

您可以直接安装 pg_bulkload 扩展包的预置二进制包,首先确保 PGDGPIGSTY 仓库已经添加并启用:

pig repo add pgsql -u          # 添加仓库并更新缓存

使用 pig 或者是 apt/yum/dnf 安装扩展:

pig install pg_bulkload;          # 当前活跃 PG 版本安装
pig ext install -y pg_bulkload -v 18  # PG 18
pig ext install -y pg_bulkload -v 17  # PG 17
pig ext install -y pg_bulkload -v 16  # PG 16
pig ext install -y pg_bulkload -v 15  # PG 15
pig ext install -y pg_bulkload -v 14  # PG 14
dnf install -y pg_bulkload_18       # PG 18
dnf install -y pg_bulkload_17       # PG 17
dnf install -y pg_bulkload_16       # PG 16
dnf install -y pg_bulkload_15       # PG 15
dnf install -y pg_bulkload_14       # PG 14
apt install -y postgresql-18-pg-bulkload   # PG 18
apt install -y postgresql-17-pg-bulkload   # PG 17
apt install -y postgresql-16-pg-bulkload   # PG 16
apt install -y postgresql-15-pg-bulkload   # PG 15
apt install -y postgresql-14-pg-bulkload   # PG 14

创建扩展

CREATE EXTENSION pg_bulkload;

用法

pg_bulkload: pg_bulkload 是 PostgreSQL 的高速数据加载工具

一个用于 PostgreSQL 的高速数据加载工具,通过绕过共享缓冲区实现海量数据的快速加载,并内置 ETL 功能用于输入验证和数据转换。

基本用法

使用控制文件加载数据:

pg_bulkload sample_csv.ctl

输出:

NOTICE: BULK LOAD START
NOTICE: BULK LOAD END
    0 Rows skipped.
    8 Rows successfully loaded.
    0 Rows not loaded due to parse errors.
    0 Rows not loaded due to duplicate errors.
    0 Rows replaced with new rows.

控制文件示例

# sample_csv.ctl
OUTPUT = my_table
INPUT = /path/to/data.csv
TYPE = CSV
DELIMITER = ,
QUOTE = "\""
ESCAPE = "\""
NULL = ""
SKIP = 1              # 跳过表头行
PARSE_ERRORS = 100    # 允许最多 100 个解析错误
DUPLICATE_ERRORS = 0  # 遇到重复键错误时拒绝
ON_DUPLICATE_KEEP = NEW  # 或 OLD
TRUNCATE = NO

加载模式

  • DIRECT:绕过共享缓冲区,直接写入数据文件(最快)
  • PARALLEL:使用多个进程进行加载
  • CSV/BINARY/FIXED:支持多种输入格式

SQL 接口

-- 在 SQL 中加载数据
SELECT pg_bulkload(
    'OUTPUT = my_table, INPUT = /path/to/data.csv, TYPE = CSV'
);

主要功能

  • 绕过 PostgreSQL 共享缓冲区以实现最大吞吐量
  • 输入数据验证,支持可配置的错误阈值
  • 重复键处理(保留新值、保留旧值或拒绝)
  • 支持 CSV、定长和二进制输入格式
  • 跳过行、过滤函数用于数据转换
  • 支持并行加载

文档

完整文档:http://ossc-db.github.io/pg_bulkload/index.html


最后修改 2026-03-14: update extension metadata (953cbd0)