
起初,我尝试了一些传统的方法。比如,将向量存储为JSON字符串或者在数据库中创建多个浮点数列来表示向量。然而,这些方法很快就暴露出了它们的局限性:
- 查询效率低下: 当需要进行“最近邻搜索”(Nearest Neighbor Search)时,例如查找与某个向量最相似的其他向量,传统的SQL查询非常慢。我不得不编写复杂的自定义函数,或者在应用层进行大量的数据处理,这导致了严重的性能瓶颈。
- 代码复杂性高: 无论是数据存储还是查询逻辑,都变得异常复杂且难以维护。每次数据维度变化,都需要修改数据库结构和大量代码。
- 缺乏原生支持: 关系型数据库本身并非为高维向量操作而设计,这使得很多优化变得不可能。
我感到非常沮丧,似乎我的PHP应用在处理AI向量数据时,总是力不从心。我需要一个既能利用现有数据库的强大功能,又能原生支持向量操作的解决方案。
Composer在线学习地址:学习地址
经过一番研究,我发现了pgvector这个PostgreSQL扩展,它为PostgreSQL带来了向量数据类型和相似度搜索功能。而更令我惊喜的是,有一个名为pgvector/pgvector的PHP库,它完美地将pgvector的功能带入了PHP生态系统,特别是对Laravel和Doctrine等主流框架提供了无缝支持。
立即学习“PHP免费学习笔记(深入)”;
使用 Composer 轻松集成 pgvector/pgvector
解决这个问题的关键,就是利用Composer将pgvector/pgvector集成到我的PHP项目中。安装过程非常简单:
首先,在你的PHP项目根目录运行Composer命令:
composer require pgvector/pgvector
这条命令会下载并安装pgvector/pgvector库及其所有依赖。Composer的强大之处在于,它不仅为你解决了库的下载问题,还自动处理了命名空间映射和自动加载,让你无需手动管理文件路径,开箱即用。
如何使用 pgvector/pgvector 解决问题
以Laravel项目为例,集成pgvector/pgvector后,我的开发流程变得异常顺畅:
-
启用数据库扩展和迁移: 首先,确保你的PostgreSQL数据库已安装并启用了
vector扩展。然后,发布并运行pgvector的迁移,它会为你的数据库准备好必要的支持。php artisan vendor:publish --tag="pgvector-migrations" php artisan migrate
-
在迁移中定义向量字段: 现在,你可以在数据库迁移中直接使用
vector类型来定义存储向量的字段,并指定向量的维度。use Illuminate\Database\Schema\Blueprint; use Illuminate\Support\Facades\Schema; Schema::create('items', function (Blueprint $table) { $table->id(); $table->string('name'); $table->vector('embedding', 3); // 定义一个3维的向量字段 $table->timestamps(); }); -
更新模型,使用Vector类型转换: 在Laravel模型中,你需要使用
Pgvector\Laravel\Vector类进行类型转换,并引入HasNeighborsTrait,它提供了方便的相似度查询方法。use Illuminate\Database\Eloquent\Model; use Pgvector\Laravel\Vector; use Pgvector\Laravel\HasNeighbors; // 引入HasNeighbors Trait class Item extends Model { use HasNeighbors; // 使用HasNeighbors Trait protected $fillable = ['name', 'embedding']; protected $casts = [ 'embedding' => Vector::class, // 将embedding字段转换为Vector对象 ]; } -
插入和查询向量数据: 现在,你可以像处理普通数据一样,轻松地插入和查询向量。
use Pgvector\Laravel\Distance; // 插入一个向量 $item = new Item(); $item->name = 'Apple'; $item->embedding = [0.1, 0.2, 0.3]; // 直接赋值数组 $item->save(); // 查找与某个记录最相似的邻居 $neighbors = $item->nearestNeighbors('embedding', Distance::L2) ->take(5) ->get(); // 查找与特定向量最相似的邻居 $queryVector = [0.11, 0.22, 0.33]; $neighborsFromVector = Item::query() ->nearestNeighbors('embedding', $queryVector, Distance::Cosine) ->take(5) ->get(); foreach ($neighborsFromVector as $neighbor) { echo "Name: {$neighbor->name}, Distance: {$neighbor->neighbor_distance}\n"; }pgvector/pgvector支持多种距离算法,如L2距离(欧几里得距离)、余弦距离(Cosine Distance)和内积距离(Inner Product Distance),你可以根据实际需求选择最合适的算法。 -
添加近似索引以提高性能: 为了在大规模数据下获得更好的查询性能,你可以为向量字段添加近似最近邻(ANN)索引,如HNSW或IVFFlat。
use Illuminate\Support\Facades\DB; public function up() { DB::statement('CREATE INDEX my_index ON items USING hnsw (embedding vector_l2_ops)'); // 或者使用 IVFFlat // DB::statement('CREATE INDEX my_index ON items USING ivfflat (embedding vector_l2_ops) WITH (lists = 100)'); } public function down() { DB::statement('DROP INDEX my_index'); }
总结其优势和实际应用效果
pgvector/pgvector的引入,彻底改变了我处理AI向量数据的方式:
- 极简的开发体验: 借助Composer,安装和集成变得异常简单。在Laravel中,通过迁移、模型类型转换和Trait,我几乎不需要编写任何复杂的SQL或向量处理逻辑。
-
卓越的查询性能: 利用PostgreSQL的
pgvector扩展和近似索引,即使面对海量数据,相似度搜索也能保持极高的效率,解决了之前严重的性能瓶颈。 - 强大的功能支持: 它原生支持多种距离算法,并能轻松实现最近邻搜索、语义搜索等高级功能,为构建智能应用提供了坚实的基础。
- 与现有PHP生态无缝集成: 无需引入额外的向量数据库服务,直接在现有的PostgreSQL数据库上扩展功能,降低了架构复杂性和维护成本。
通过pgvector/pgvector,我成功地在我的PHP应用中实现了高效的产品推荐系统和语义搜索功能。用户可以根据他们的偏好获得更精准的推荐,文档搜索也变得更加智能,能够理解查询的真实意图。这不仅提升了用户体验,也大大增强了应用的竞争力。
如果你也在为PHP应用中的AI向量数据管理而烦恼,那么pgvector/pgvector绝对是值得一试的解决方案。它将让你轻松驾驭AI时代的智能应用开发!











