pg_tokenizer

用于全文检索的分词器

概览

扩展包名	版本	分类	许可证	语言
`pg_tokenizer`	`0.1.1`	FTS	Apache-2.0	Rust

ID	扩展名	Bin	Lib	Load	Create	Trust	Reloc	模式
2160	`pg_tokenizer`	否	是	是	是	否	否	`tokenizer_catalog`

相关扩展	`pg_search` `pgroonga` `pg_bigm` `zhparser` `pgroonga_database` `pg_bestmatch` `vchord_bm25` `pg_trgm`

PG18 fix by Vonng

版本

类型	仓库	版本	PG 大版本	包名	依赖
EXT	PIGSTY	`0.1.1`	1817161514	`pg_tokenizer`	-
RPM	PIGSTY	`0.1.1`	1817161514	`pg_tokenizer_$v`	-
DEB	PIGSTY	`0.1.1`	1817161514	`postgresql-$v-pg-tokenizer`	-

OS / PG	PG18	PG17	PG16	PG15	PG14
el8.x86_64	PIGSTY 0.1.1 el8.x86_64.pg18 : pg_tokenizer_18 pg_tokenizer_18-0.1.1-1PIGSTY.el8.x86_64.rpm PIGSTY · 0.1.1 · 11.7MiB	PIGSTY 0.1.1 el8.x86_64.pg17 : pg_tokenizer_17 pg_tokenizer_17-0.1.1-1PIGSTY.el8.x86_64.rpm PIGSTY · 0.1.1 · 11.7MiB	PIGSTY 0.1.1 el8.x86_64.pg16 : pg_tokenizer_16 pg_tokenizer_16-0.1.1-1PIGSTY.el8.x86_64.rpm PIGSTY · 0.1.1 · 11.7MiB	PIGSTY 0.1.1 el8.x86_64.pg15 : pg_tokenizer_15 pg_tokenizer_15-0.1.1-1PIGSTY.el8.x86_64.rpm PIGSTY · 0.1.1 · 11.7MiB	PIGSTY 0.1.1 el8.x86_64.pg14 : pg_tokenizer_14 pg_tokenizer_14-0.1.1-1PIGSTY.el8.x86_64.rpm PIGSTY · 0.1.1 · 11.7MiB
el8.aarch64	PIGSTY 0.1.1 el8.aarch64.pg18 : pg_tokenizer_18 pg_tokenizer_18-0.1.1-1PIGSTY.el8.aarch64.rpm PIGSTY · 0.1.1 · 11.5MiB	PIGSTY 0.1.1 el8.aarch64.pg17 : pg_tokenizer_17 pg_tokenizer_17-0.1.1-1PIGSTY.el8.aarch64.rpm PIGSTY · 0.1.1 · 11.5MiB	PIGSTY 0.1.1 el8.aarch64.pg16 : pg_tokenizer_16 pg_tokenizer_16-0.1.1-1PIGSTY.el8.aarch64.rpm PIGSTY · 0.1.1 · 11.5MiB	PIGSTY 0.1.1 el8.aarch64.pg15 : pg_tokenizer_15 pg_tokenizer_15-0.1.1-1PIGSTY.el8.aarch64.rpm PIGSTY · 0.1.1 · 11.5MiB	PIGSTY 0.1.1 el8.aarch64.pg14 : pg_tokenizer_14 pg_tokenizer_14-0.1.1-1PIGSTY.el8.aarch64.rpm PIGSTY · 0.1.1 · 11.5MiB
el9.x86_64	PIGSTY 0.1.1 el9.x86_64.pg18 : pg_tokenizer_18 pg_tokenizer_18-0.1.1-1PIGSTY.el9.x86_64.rpm PIGSTY · 0.1.1 · 11.0MiB	PIGSTY 0.1.1 el9.x86_64.pg17 : pg_tokenizer_17 pg_tokenizer_17-0.1.1-1PIGSTY.el9.x86_64.rpm PIGSTY · 0.1.1 · 11.0MiB	PIGSTY 0.1.1 el9.x86_64.pg16 : pg_tokenizer_16 pg_tokenizer_16-0.1.1-1PIGSTY.el9.x86_64.rpm PIGSTY · 0.1.1 · 11.0MiB	PIGSTY 0.1.1 el9.x86_64.pg15 : pg_tokenizer_15 pg_tokenizer_15-0.1.1-1PIGSTY.el9.x86_64.rpm PIGSTY · 0.1.1 · 11.0MiB	PIGSTY 0.1.1 el9.x86_64.pg14 : pg_tokenizer_14 pg_tokenizer_14-0.1.1-1PIGSTY.el9.x86_64.rpm PIGSTY · 0.1.1 · 11.0MiB
el9.aarch64	PIGSTY 0.1.1 el9.aarch64.pg18 : pg_tokenizer_18 pg_tokenizer_18-0.1.1-1PIGSTY.el9.aarch64.rpm PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 el9.aarch64.pg17 : pg_tokenizer_17 pg_tokenizer_17-0.1.1-1PIGSTY.el9.aarch64.rpm PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 el9.aarch64.pg16 : pg_tokenizer_16 pg_tokenizer_16-0.1.1-1PIGSTY.el9.aarch64.rpm PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 el9.aarch64.pg15 : pg_tokenizer_15 pg_tokenizer_15-0.1.1-1PIGSTY.el9.aarch64.rpm PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 el9.aarch64.pg14 : pg_tokenizer_14 pg_tokenizer_14-0.1.1-1PIGSTY.el9.aarch64.rpm PIGSTY · 0.1.1 · 10.9MiB
el10.x86_64	PIGSTY 0.1.1 el10.x86_64.pg18 : pg_tokenizer_18 pg_tokenizer_18-0.1.1-1PIGSTY.el10.x86_64.rpm PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 el10.x86_64.pg17 : pg_tokenizer_17 pg_tokenizer_17-0.1.1-1PIGSTY.el10.x86_64.rpm PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 el10.x86_64.pg16 : pg_tokenizer_16 pg_tokenizer_16-0.1.1-1PIGSTY.el10.x86_64.rpm PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 el10.x86_64.pg15 : pg_tokenizer_15 pg_tokenizer_15-0.1.1-1PIGSTY.el10.x86_64.rpm PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 el10.x86_64.pg14 : pg_tokenizer_14 pg_tokenizer_14-0.1.1-1PIGSTY.el10.x86_64.rpm PIGSTY · 0.1.1 · 10.9MiB
el10.aarch64	PIGSTY 0.1.1 el10.aarch64.pg18 : pg_tokenizer_18 pg_tokenizer_18-0.1.1-1PIGSTY.el10.aarch64.rpm PIGSTY · 0.1.1 · 11.0MiB	PIGSTY 0.1.1 el10.aarch64.pg17 : pg_tokenizer_17 pg_tokenizer_17-0.1.1-1PIGSTY.el10.aarch64.rpm PIGSTY · 0.1.1 · 11.0MiB	PIGSTY 0.1.1 el10.aarch64.pg16 : pg_tokenizer_16 pg_tokenizer_16-0.1.1-1PIGSTY.el10.aarch64.rpm PIGSTY · 0.1.1 · 11.0MiB	PIGSTY 0.1.1 el10.aarch64.pg15 : pg_tokenizer_15 pg_tokenizer_15-0.1.1-1PIGSTY.el10.aarch64.rpm PIGSTY · 0.1.1 · 11.0MiB	PIGSTY 0.1.1 el10.aarch64.pg14 : pg_tokenizer_14 pg_tokenizer_14-0.1.1-1PIGSTY.el10.aarch64.rpm PIGSTY · 0.1.1 · 11.0MiB
d12.x86_64	PIGSTY 0.1.1 d12.x86_64.pg18 : postgresql-18-pg-tokenizer postgresql-18-pg-tokenizer_0.1.1-1PIGSTY~bookworm_amd64.deb PIGSTY · 0.1.1 · 9.9MiB	PIGSTY 0.1.1 d12.x86_64.pg17 : postgresql-17-pg-tokenizer postgresql-17-pg-tokenizer_0.1.1-1PIGSTY~bookworm_amd64.deb PIGSTY · 0.1.1 · 9.9MiB	PIGSTY 0.1.1 d12.x86_64.pg16 : postgresql-16-pg-tokenizer postgresql-16-pg-tokenizer_0.1.1-1PIGSTY~bookworm_amd64.deb PIGSTY · 0.1.1 · 9.9MiB	PIGSTY 0.1.1 d12.x86_64.pg15 : postgresql-15-pg-tokenizer postgresql-15-pg-tokenizer_0.1.1-1PIGSTY~bookworm_amd64.deb PIGSTY · 0.1.1 · 9.9MiB	PIGSTY 0.1.1 d12.x86_64.pg14 : postgresql-14-pg-tokenizer postgresql-14-pg-tokenizer_0.1.1-1PIGSTY~bookworm_amd64.deb PIGSTY · 0.1.1 · 9.9MiB
d12.aarch64	PIGSTY 0.1.1 d12.aarch64.pg18 : postgresql-18-pg-tokenizer postgresql-18-pg-tokenizer_0.1.1-1PIGSTY~bookworm_arm64.deb PIGSTY · 0.1.1 · 9.7MiB	PIGSTY 0.1.1 d12.aarch64.pg17 : postgresql-17-pg-tokenizer postgresql-17-pg-tokenizer_0.1.1-1PIGSTY~bookworm_arm64.deb PIGSTY · 0.1.1 · 9.7MiB	PIGSTY 0.1.1 d12.aarch64.pg16 : postgresql-16-pg-tokenizer postgresql-16-pg-tokenizer_0.1.1-1PIGSTY~bookworm_arm64.deb PIGSTY · 0.1.1 · 9.7MiB	PIGSTY 0.1.1 d12.aarch64.pg15 : postgresql-15-pg-tokenizer postgresql-15-pg-tokenizer_0.1.1-1PIGSTY~bookworm_arm64.deb PIGSTY · 0.1.1 · 9.7MiB	PIGSTY 0.1.1 d12.aarch64.pg14 : postgresql-14-pg-tokenizer postgresql-14-pg-tokenizer_0.1.1-1PIGSTY~bookworm_arm64.deb PIGSTY · 0.1.1 · 9.7MiB
d13.x86_64	PIGSTY 0.1.1 d13.x86_64.pg18 : postgresql-18-pg-tokenizer postgresql-18-pg-tokenizer_0.1.1-1PIGSTY~trixie_amd64.deb PIGSTY · 0.1.1 · 9.9MiB	PIGSTY 0.1.1 d13.x86_64.pg17 : postgresql-17-pg-tokenizer postgresql-17-pg-tokenizer_0.1.1-1PIGSTY~trixie_amd64.deb PIGSTY · 0.1.1 · 9.9MiB	PIGSTY 0.1.1 d13.x86_64.pg16 : postgresql-16-pg-tokenizer postgresql-16-pg-tokenizer_0.1.1-1PIGSTY~trixie_amd64.deb PIGSTY · 0.1.1 · 9.9MiB	PIGSTY 0.1.1 d13.x86_64.pg15 : postgresql-15-pg-tokenizer postgresql-15-pg-tokenizer_0.1.1-1PIGSTY~trixie_amd64.deb PIGSTY · 0.1.1 · 9.9MiB	PIGSTY 0.1.1 d13.x86_64.pg14 : postgresql-14-pg-tokenizer postgresql-14-pg-tokenizer_0.1.1-1PIGSTY~trixie_amd64.deb PIGSTY · 0.1.1 · 9.9MiB
d13.aarch64	PIGSTY 0.1.1 d13.aarch64.pg18 : postgresql-18-pg-tokenizer postgresql-18-pg-tokenizer_0.1.1-1PIGSTY~trixie_arm64.deb PIGSTY · 0.1.1 · 9.7MiB	PIGSTY 0.1.1 d13.aarch64.pg17 : postgresql-17-pg-tokenizer postgresql-17-pg-tokenizer_0.1.1-1PIGSTY~trixie_arm64.deb PIGSTY · 0.1.1 · 9.7MiB	PIGSTY 0.1.1 d13.aarch64.pg16 : postgresql-16-pg-tokenizer postgresql-16-pg-tokenizer_0.1.1-1PIGSTY~trixie_arm64.deb PIGSTY · 0.1.1 · 9.7MiB	PIGSTY 0.1.1 d13.aarch64.pg15 : postgresql-15-pg-tokenizer postgresql-15-pg-tokenizer_0.1.1-1PIGSTY~trixie_arm64.deb PIGSTY · 0.1.1 · 9.7MiB	PIGSTY 0.1.1 d13.aarch64.pg14 : postgresql-14-pg-tokenizer postgresql-14-pg-tokenizer_0.1.1-1PIGSTY~trixie_arm64.deb PIGSTY · 0.1.1 · 9.7MiB
u22.x86_64	PIGSTY 0.1.1 u22.x86_64.pg18 : postgresql-18-pg-tokenizer postgresql-18-pg-tokenizer_0.1.1-1PIGSTY~jammy_amd64.deb PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 u22.x86_64.pg17 : postgresql-17-pg-tokenizer postgresql-17-pg-tokenizer_0.1.1-1PIGSTY~jammy_amd64.deb PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 u22.x86_64.pg16 : postgresql-16-pg-tokenizer postgresql-16-pg-tokenizer_0.1.1-1PIGSTY~jammy_amd64.deb PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 u22.x86_64.pg15 : postgresql-15-pg-tokenizer postgresql-15-pg-tokenizer_0.1.1-1PIGSTY~jammy_amd64.deb PIGSTY · 0.1.1 · 10.9MiB	PIGSTY 0.1.1 u22.x86_64.pg14 : postgresql-14-pg-tokenizer postgresql-14-pg-tokenizer_0.1.1-1PIGSTY~jammy_amd64.deb PIGSTY · 0.1.1 · 10.9MiB
u22.aarch64	PIGSTY 0.1.1 u22.aarch64.pg18 : postgresql-18-pg-tokenizer postgresql-18-pg-tokenizer_0.1.1-1PIGSTY~jammy_arm64.deb PIGSTY · 0.1.1 · 10.7MiB	PIGSTY 0.1.1 u22.aarch64.pg17 : postgresql-17-pg-tokenizer postgresql-17-pg-tokenizer_0.1.1-1PIGSTY~jammy_arm64.deb PIGSTY · 0.1.1 · 10.7MiB	PIGSTY 0.1.1 u22.aarch64.pg16 : postgresql-16-pg-tokenizer postgresql-16-pg-tokenizer_0.1.1-1PIGSTY~jammy_arm64.deb PIGSTY · 0.1.1 · 10.7MiB	PIGSTY 0.1.1 u22.aarch64.pg15 : postgresql-15-pg-tokenizer postgresql-15-pg-tokenizer_0.1.1-1PIGSTY~jammy_arm64.deb PIGSTY · 0.1.1 · 10.7MiB	PIGSTY 0.1.1 u22.aarch64.pg14 : postgresql-14-pg-tokenizer postgresql-14-pg-tokenizer_0.1.1-1PIGSTY~jammy_arm64.deb PIGSTY · 0.1.1 · 10.7MiB
u24.x86_64	PIGSTY 0.1.1 u24.x86_64.pg18 : postgresql-18-pg-tokenizer postgresql-18-pg-tokenizer_0.1.1-1PIGSTY~noble_amd64.deb PIGSTY · 0.1.1 · 10.8MiB	PIGSTY 0.1.1 u24.x86_64.pg17 : postgresql-17-pg-tokenizer postgresql-17-pg-tokenizer_0.1.1-1PIGSTY~noble_amd64.deb PIGSTY · 0.1.1 · 10.8MiB	PIGSTY 0.1.1 u24.x86_64.pg16 : postgresql-16-pg-tokenizer postgresql-16-pg-tokenizer_0.1.1-1PIGSTY~noble_amd64.deb PIGSTY · 0.1.1 · 10.8MiB	PIGSTY 0.1.1 u24.x86_64.pg15 : postgresql-15-pg-tokenizer postgresql-15-pg-tokenizer_0.1.1-1PIGSTY~noble_amd64.deb PIGSTY · 0.1.1 · 10.8MiB	PIGSTY 0.1.1 u24.x86_64.pg14 : postgresql-14-pg-tokenizer postgresql-14-pg-tokenizer_0.1.1-1PIGSTY~noble_amd64.deb PIGSTY · 0.1.1 · 10.8MiB
u24.aarch64	PIGSTY 0.1.1 u24.aarch64.pg18 : postgresql-18-pg-tokenizer postgresql-18-pg-tokenizer_0.1.1-1PIGSTY~noble_arm64.deb PIGSTY · 0.1.1 · 10.6MiB	PIGSTY 0.1.1 u24.aarch64.pg17 : postgresql-17-pg-tokenizer postgresql-17-pg-tokenizer_0.1.1-1PIGSTY~noble_arm64.deb PIGSTY · 0.1.1 · 10.7MiB	PIGSTY 0.1.1 u24.aarch64.pg16 : postgresql-16-pg-tokenizer postgresql-16-pg-tokenizer_0.1.1-1PIGSTY~noble_arm64.deb PIGSTY · 0.1.1 · 10.7MiB	PIGSTY 0.1.1 u24.aarch64.pg15 : postgresql-15-pg-tokenizer postgresql-15-pg-tokenizer_0.1.1-1PIGSTY~noble_arm64.deb PIGSTY · 0.1.1 · 10.7MiB	PIGSTY 0.1.1 u24.aarch64.pg14 : postgresql-14-pg-tokenizer postgresql-14-pg-tokenizer_0.1.1-1PIGSTY~noble_arm64.deb PIGSTY · 0.1.1 · 10.7MiB

构建

您可以使用 pig build 命令构建 pg_tokenizer 扩展的 RPM / DEB 包：

pig build pkg pg_tokenizer         # 构建 RPM / DEB 包

安装

您可以直接安装 pg_tokenizer 扩展包的预置二进制包，首先确保 PGDG 和 PIGSTY 仓库已经添加并启用：

pig repo add pgsql -u          # 添加仓库并更新缓存

使用 pig 或者是 apt/yum/dnf 安装扩展：

pig install pg_tokenizer;          # 当前活跃 PG 版本安装

pig ext install -y pg_tokenizer -v 18  # PG 18
pig ext install -y pg_tokenizer -v 17  # PG 17
pig ext install -y pg_tokenizer -v 16  # PG 16
pig ext install -y pg_tokenizer -v 15  # PG 15
pig ext install -y pg_tokenizer -v 14  # PG 14

dnf install -y pg_tokenizer_18       # PG 18
dnf install -y pg_tokenizer_17       # PG 17
dnf install -y pg_tokenizer_16       # PG 16
dnf install -y pg_tokenizer_15       # PG 15
dnf install -y pg_tokenizer_14       # PG 14

apt install -y postgresql-18-pg-tokenizer   # PG 18
apt install -y postgresql-17-pg-tokenizer   # PG 17
apt install -y postgresql-16-pg-tokenizer   # PG 16
apt install -y postgresql-15-pg-tokenizer   # PG 15
apt install -y postgresql-14-pg-tokenizer   # PG 14

预加载配置：

shared_preload_libraries = 'pg_tokenizer';

创建扩展：

CREATE EXTENSION pg_tokenizer;

用法

GitHub: tensorchord/pg_tokenizer.rs

pg_tokenizer 是一个为全文搜索提供分词器的 PostgreSQL 扩展。它设计与 VectorChord-bm25 配合使用，提供原生 BM25 排序索引支持。

快速开始

CREATE EXTENSION pg_tokenizer;

-- 使用 LLMLingua2 模型创建分词器
SELECT create_tokenizer('tokenizer1', $$
model = "llmlingua2"
$$);

-- 分词文本
SELECT tokenize('PostgreSQL is a powerful, open-source object-relational database system. It has over 15 years of active development.', 'tokenizer1');

分词器模型

pg_tokenizer 支持多种分词器模型，适用于不同语言和场景：

模型	语言	说明
`llmlingua2`	英语	基于 BERT 的 LLMLingua2 分词器
`jieba`	中文	结巴中文分词
`lindera/ipadic`	日语	带 IPADIC 词典的 Lindera 分词器
自定义模型	任意	用户训练的领域特定文本模型

创建分词器

-- 英文分词器
SELECT create_tokenizer('en_tokenizer', $$
model = "llmlingua2"
$$);

-- 中文分词器
SELECT create_tokenizer('zh_tokenizer', $$
model = "jieba"
$$);

-- 日文分词器
SELECT create_tokenizer('ja_tokenizer', $$
model = "lindera/ipadic"
$$);

文本分词

-- 分词英文文本
SELECT tokenize('full text search in PostgreSQL', 'en_tokenizer');

-- 分词中文文本
SELECT tokenize('PostgreSQL是一个强大的数据库系统', 'zh_tokenizer');

文本分析器

pg_tokenizer 还提供文本分析器功能，将分词与额外的文本处理步骤结合。详细的文本分析器用法请参见文本分析器文档。

与 VectorChord-BM25 集成

pg_tokenizer 通常与 VectorChord-BM25 配合使用以获得完整的 BM25 排序支持：

CREATE EXTENSION IF NOT EXISTS pg_tokenizer CASCADE;
CREATE EXTENSION IF NOT EXISTS vchord_bm25 CASCADE;

-- 创建分词器
SELECT create_tokenizer('my_tokenizer', $$
model = "llmlingua2"
$$);

-- 将文本分词为 bm25vector 用于索引和搜索
SELECT tokenize('your search query', 'my_tokenizer');

文档

更多详情请参见完整文档：

意见反馈

这个页面对您有帮助吗？

感谢反馈！请告诉我们如何改进。

抱歉给您带来不便。请告诉我们如何改进。

最后修改 2026-03-14: update extension metadata (953cbd0)