pg_bulkload
向 PostgreSQL 中高速加载数据
仓库
ossc-db/pg_bulkload
https://github.com/ossc-db/pg_bulkload
源码
pg_bulkload-VERSION3_1_23.tar.gz
pg_bulkload-VERSION3_1_23.tar.gz
概览
| 扩展包名 | 版本 | 分类 | 许可证 | 语言 |
|---|---|---|---|---|
pg_bulkload | 3.1.23 | ETL | BSD 3-Clause | C |
| ID | 扩展名 | Bin | Lib | Load | Create | Trust | Reloc | 模式 |
|---|---|---|---|---|---|---|---|---|
| 9830 | pg_bulkload | 是 | 是 | 否 | 是 | 否 | 否 | - |
| 相关扩展 | file_fdw aws_s3 db_migrator pg_fact_loader mysql_fdw oracle_fdw postgres_fdw pglogical |
|---|
pg18 fixed by vonng
版本
| 类型 | 仓库 | 版本 | PG 大版本 | 包名 | 依赖 |
|---|---|---|---|---|---|
| EXT | PIGSTY | 3.1.23 | 1817161514 | pg_bulkload | - |
| RPM | PGDG | 3.1.23 | 1817161514 | pg_bulkload_$v | - |
| DEB | PIGSTY | 3.1.23 | 1817161514 | postgresql-$v-pg-bulkload | - |
构建
您可以使用 pig build 命令构建 pg_bulkload 扩展的 RPM / DEB 包:
pig build pkg pg_bulkload # 构建 RPM / DEB 包
安装
您可以直接安装 pg_bulkload 扩展包的预置二进制包,首先确保 PGDG 和 PIGSTY 仓库已经添加并启用:
pig repo add pgsql -u # 添加仓库并更新缓存
使用 pig 或者是 apt/yum/dnf 安装扩展:
pig install pg_bulkload; # 当前活跃 PG 版本安装
pig ext install -y pg_bulkload -v 18 # PG 18
pig ext install -y pg_bulkload -v 17 # PG 17
pig ext install -y pg_bulkload -v 16 # PG 16
pig ext install -y pg_bulkload -v 15 # PG 15
pig ext install -y pg_bulkload -v 14 # PG 14
dnf install -y pg_bulkload_18 # PG 18
dnf install -y pg_bulkload_17 # PG 17
dnf install -y pg_bulkload_16 # PG 16
dnf install -y pg_bulkload_15 # PG 15
dnf install -y pg_bulkload_14 # PG 14
apt install -y postgresql-18-pg-bulkload # PG 18
apt install -y postgresql-17-pg-bulkload # PG 17
apt install -y postgresql-16-pg-bulkload # PG 16
apt install -y postgresql-15-pg-bulkload # PG 15
apt install -y postgresql-14-pg-bulkload # PG 14
创建扩展:
CREATE EXTENSION pg_bulkload;
用法
一个用于 PostgreSQL 的高速数据加载工具,通过绕过共享缓冲区实现海量数据的快速加载,并内置 ETL 功能用于输入验证和数据转换。
基本用法
使用控制文件加载数据:
pg_bulkload sample_csv.ctl
输出:
NOTICE: BULK LOAD START
NOTICE: BULK LOAD END
0 Rows skipped.
8 Rows successfully loaded.
0 Rows not loaded due to parse errors.
0 Rows not loaded due to duplicate errors.
0 Rows replaced with new rows.
控制文件示例
# sample_csv.ctl
OUTPUT = my_table
INPUT = /path/to/data.csv
TYPE = CSV
DELIMITER = ,
QUOTE = "\""
ESCAPE = "\""
NULL = ""
SKIP = 1 # 跳过表头行
PARSE_ERRORS = 100 # 允许最多 100 个解析错误
DUPLICATE_ERRORS = 0 # 遇到重复键错误时拒绝
ON_DUPLICATE_KEEP = NEW # 或 OLD
TRUNCATE = NO
加载模式
- DIRECT:绕过共享缓冲区,直接写入数据文件(最快)
- PARALLEL:使用多个进程进行加载
- CSV/BINARY/FIXED:支持多种输入格式
SQL 接口
-- 在 SQL 中加载数据
SELECT pg_bulkload(
'OUTPUT = my_table, INPUT = /path/to/data.csv, TYPE = CSV'
);
主要功能
- 绕过 PostgreSQL 共享缓冲区以实现最大吞吐量
- 输入数据验证,支持可配置的错误阈值
- 重复键处理(保留新值、保留旧值或拒绝)
- 支持 CSV、定长和二进制输入格式
- 跳过行、过滤函数用于数据转换
- 支持并行加载
文档
完整文档:http://ossc-db.github.io/pg_bulkload/index.html