pg_tokenizer
用于全文检索的分词器
仓库
tensorchord/pg_tokenizer.rs
https://github.com/tensorchord/pg_tokenizer.rs
源码
pg_tokenizer.rs-0.1.1.tar.gz
pg_tokenizer.rs-0.1.1.tar.gz
概览
| 扩展包名 | 版本 | 分类 | 许可证 | 语言 |
|---|---|---|---|---|
pg_tokenizer | 0.1.1 | FTS | Apache-2.0 | Rust |
| ID | 扩展名 | Bin | Lib | Load | Create | Trust | Reloc | 模式 |
|---|---|---|---|---|---|---|---|---|
| 2160 | pg_tokenizer | 否 | 是 | 是 | 是 | 否 | 否 | tokenizer_catalog |
| 相关扩展 | pg_search pgroonga pg_bigm zhparser pgroonga_database pg_bestmatch vchord_bm25 pg_trgm |
|---|
PG18 fix by Vonng
版本
| 类型 | 仓库 | 版本 | PG 大版本 | 包名 | 依赖 |
|---|---|---|---|---|---|
| EXT | PIGSTY | 0.1.1 | 1817161514 | pg_tokenizer | - |
| RPM | PIGSTY | 0.1.1 | 1817161514 | pg_tokenizer_$v | - |
| DEB | PIGSTY | 0.1.1 | 1817161514 | postgresql-$v-pg-tokenizer | - |
构建
您可以使用 pig build 命令构建 pg_tokenizer 扩展的 RPM / DEB 包:
pig build pkg pg_tokenizer # 构建 RPM / DEB 包
安装
您可以直接安装 pg_tokenizer 扩展包的预置二进制包,首先确保 PGDG 和 PIGSTY 仓库已经添加并启用:
pig repo add pgsql -u # 添加仓库并更新缓存
使用 pig 或者是 apt/yum/dnf 安装扩展:
pig install pg_tokenizer; # 当前活跃 PG 版本安装
pig ext install -y pg_tokenizer -v 18 # PG 18
pig ext install -y pg_tokenizer -v 17 # PG 17
pig ext install -y pg_tokenizer -v 16 # PG 16
pig ext install -y pg_tokenizer -v 15 # PG 15
pig ext install -y pg_tokenizer -v 14 # PG 14
dnf install -y pg_tokenizer_18 # PG 18
dnf install -y pg_tokenizer_17 # PG 17
dnf install -y pg_tokenizer_16 # PG 16
dnf install -y pg_tokenizer_15 # PG 15
dnf install -y pg_tokenizer_14 # PG 14
apt install -y postgresql-18-pg-tokenizer # PG 18
apt install -y postgresql-17-pg-tokenizer # PG 17
apt install -y postgresql-16-pg-tokenizer # PG 16
apt install -y postgresql-15-pg-tokenizer # PG 15
apt install -y postgresql-14-pg-tokenizer # PG 14
预加载配置:
shared_preload_libraries = 'pg_tokenizer';
创建扩展:
CREATE EXTENSION pg_tokenizer;
用法
pg_tokenizer 是一个为全文搜索提供分词器的 PostgreSQL 扩展。它设计与 VectorChord-bm25 配合使用,提供原生 BM25 排序索引支持。
快速开始
CREATE EXTENSION pg_tokenizer;
-- 使用 LLMLingua2 模型创建分词器
SELECT create_tokenizer('tokenizer1', $$
model = "llmlingua2"
$$);
-- 分词文本
SELECT tokenize('PostgreSQL is a powerful, open-source object-relational database system. It has over 15 years of active development.', 'tokenizer1');
分词器模型
pg_tokenizer 支持多种分词器模型,适用于不同语言和场景:
| 模型 | 语言 | 说明 |
|---|---|---|
llmlingua2 | 英语 | 基于 BERT 的 LLMLingua2 分词器 |
jieba | 中文 | 结巴中文分词 |
lindera/ipadic | 日语 | 带 IPADIC 词典的 Lindera 分词器 |
| 自定义模型 | 任意 | 用户训练的领域特定文本模型 |
创建分词器
-- 英文分词器
SELECT create_tokenizer('en_tokenizer', $$
model = "llmlingua2"
$$);
-- 中文分词器
SELECT create_tokenizer('zh_tokenizer', $$
model = "jieba"
$$);
-- 日文分词器
SELECT create_tokenizer('ja_tokenizer', $$
model = "lindera/ipadic"
$$);
文本分词
-- 分词英文文本
SELECT tokenize('full text search in PostgreSQL', 'en_tokenizer');
-- 分词中文文本
SELECT tokenize('PostgreSQL是一个强大的数据库系统', 'zh_tokenizer');
文本分析器
pg_tokenizer 还提供文本分析器功能,将分词与额外的文本处理步骤结合。详细的文本分析器用法请参见文本分析器文档。
与 VectorChord-BM25 集成
pg_tokenizer 通常与 VectorChord-BM25 配合使用以获得完整的 BM25 排序支持:
CREATE EXTENSION IF NOT EXISTS pg_tokenizer CASCADE;
CREATE EXTENSION IF NOT EXISTS vchord_bm25 CASCADE;
-- 创建分词器
SELECT create_tokenizer('my_tokenizer', $$
model = "llmlingua2"
$$);
-- 将文本分词为 bm25vector 用于索引和搜索
SELECT tokenize('your search query', 'my_tokenizer');
文档
更多详情请参见完整文档: