pg_tiktoken

在PostgreSQL中计算OpenAI使用的Token数

概览

扩展包名版本分类许可证语言
pg_tiktoken0.0.1RAGApache-2.0Rust
ID扩展名BinLibLoadCreateTrustReloc模式
1870pg_tiktoken-
相关扩展vectorize pg_summarize pg4ml pgml vector vchord vectorscale pg_graphql

版本

类型仓库版本PG 大版本包名依赖
EXTPIGSTY0.0.11817161514pg_tiktoken-
RPMPIGSTY0.0.11817161514pg_tiktoken_$v-
DEBPIGSTY0.0.11817161514postgresql-$v-pg-tiktoken-
OS / PGPG18PG17PG16PG15PG14
el8.x86_64
el8.aarch64
el9.x86_64
el9.aarch64
el10.x86_64
el10.aarch64
d12.x86_64
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
d12.aarch64
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
d13.x86_64
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
d13.aarch64
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
u22.x86_64
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
u22.aarch64
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
u24.x86_64
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
u24.aarch64
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1
PIGSTY 0.0.1

构建

您可以使用 pig build 命令构建 pg_tiktoken 扩展的 RPM / DEB 包:

pig build pkg pg_tiktoken         # 构建 RPM / DEB 包

安装

您可以直接安装 pg_tiktoken 扩展包的预置二进制包,首先确保 PGDGPIGSTY 仓库已经添加并启用:

pig repo add pgsql -u          # 添加仓库并更新缓存

使用 pig 或者是 apt/yum/dnf 安装扩展:

pig install pg_tiktoken;          # 当前活跃 PG 版本安装
pig ext install -y pg_tiktoken -v 18  # PG 18
pig ext install -y pg_tiktoken -v 17  # PG 17
pig ext install -y pg_tiktoken -v 16  # PG 16
pig ext install -y pg_tiktoken -v 15  # PG 15
pig ext install -y pg_tiktoken -v 14  # PG 14
dnf install -y pg_tiktoken_18       # PG 18
dnf install -y pg_tiktoken_17       # PG 17
dnf install -y pg_tiktoken_16       # PG 16
dnf install -y pg_tiktoken_15       # PG 15
dnf install -y pg_tiktoken_14       # PG 14
apt install -y postgresql-18-pg-tiktoken   # PG 18
apt install -y postgresql-17-pg-tiktoken   # PG 17
apt install -y postgresql-16-pg-tiktoken   # PG 16
apt install -y postgresql-15-pg-tiktoken   # PG 15
apt install -y postgresql-14-pg-tiktoken   # PG 14

创建扩展

CREATE EXTENSION pg_tiktoken;

用法

pg_tiktoken:用于 PostgreSQL 中 OpenAI 模型的 tiktoken 分词器。 来源:README.md

pg_tiktoken 是一个 PostgreSQL 扩展,使用 OpenAI 的 tiktoken 库提供输入分词功能。它允许你直接在 SQL 中计数和编码 token,这在处理 OpenAI 模型的输入长度限制时非常有用。


函数

tiktoken_count

计算给定编码或模型的 token 数量:

SELECT tiktoken_count('p50k_edit', 'A long time ago in a galaxy far, far away');
 tiktoken_count
----------------
             11
(1 row)

tiktoken_encode

获取给定编码或模型的 token ID:

SELECT tiktoken_encode('cl100k_base', 'A long time ago in a galaxy far, far away');
                  tiktoken_encode
----------------------------------------------------
 {32,1317,892,4227,304,264,34261,3117,11,3117,3201}
(1 row)

tiktoken_counttiktoken_encode 的第一个参数都可以接受编码名称或 OpenAI 模型名称。


支持的模型

编码名称OpenAI 模型
cl100k_baseChatGPT 模型, text-embedding-ada-002
p50k_base代码模型, text-davinci-002, text-davinci-003
p50k_edit编辑模型如 text-davinci-edit-001, code-davinci-edit-001
r50k_base(或 gpt2GPT-3 模型如 davinci

最后修改 2026-03-14: update extension metadata (953cbd0)