0

0

python中如何实现搜索引擎功能?

舞姬之光

舞姬之光

发布时间:2025-11-23 17:43:46

|

447人浏览过

|

来源于php中文网

原创

答案是使用Python构建小型搜索引擎需实现倒排索引、查询处理和排序。首先通过re和defaultdict提取文档关键词并建立词到文档的映射;接着解析用户查询,取关键词交集实现AND逻辑;然后按词频打分并排序提升相关性;最后可借助Whoosh或Meilisearch等工具增强功能。核心在于索引、检索与排序协同,细节如分词质量影响效果。

python中如何实现搜索引擎功能?

在Python中实现搜索引擎功能,核心是构建一个能对文本数据进行索引、检索和排序的小型系统。虽然无法与Elasticsearch或Google这类大型引擎相比,但用Python可以快速搭建一个基础但实用的搜索引擎,适合文档检索、网站搜索等场景。

1. 构建倒排索引(Inverted Index)

倒排索引是搜索引擎的核心结构,它记录每个词出现在哪些文档中。

示例:

import re
from collections import defaultdict

模拟文档库

documents = { 1: "python programming language", 2: "python data science", 3: "web development with python", 4: "machine learning in python" }

构建倒排索引

index = defaultdict(set) for doc_id, text in documents.items(): words = re.findall(r'\b\w+\b', text.lower()) for word in words: index[word].add(doc_id)

这样,index['python'] 就会返回包含该词的所有文档ID。

立即学习Python免费学习笔记(深入)”;

2. 实现简单查询处理

支持关键词查询,比如用户输入“python data”,返回同时包含这两个词的文档。

def search(query):
    words = re.findall(r'\b\w+\b', query.lower())
    results = None
    for word in words:
        if word in index:
            if results is None:
                results = index[word]
            else:
                results = results & index[word]  # 取交集(AND 查询)
        else:
            return set()  # 任一词不存在则无结果
    return results or set()

调用 search("python data") 会返回 {2},即第二篇文档匹配。

BJXSHOP网上开店专家
BJXSHOP网上开店专家

BJXShop网上购物系统是一个高效、稳定、安全的电子商店销售平台,经过近三年市场的考验,在中国网购系统中属领先水平;完善的订单管理、销售统计系统;网站模版可DIY、亦可导入导出;会员、商品种类和价格均实现无限等级;管理员权限可细分;整合了多种在线支付接口;强有力搜索引擎支持... 程序更新:此版本是伴江行官方商业版程序,已经终止销售,现于免费给大家使用。比其以前的免费版功能增加了:1,整合了论坛

下载

3. 提升相关性:按词频排序

更合理的做法是按匹配词的数量或TF-IDF评分排序。

简单词频打分示例:

def search_ranked(query):
    words = re.findall(r'\b\w+\b', query.lower())
    scores = defaultdict(int)
    for word in words:
        if word in index:
            for doc_id in index[word]:
                scores[doc_id] += 1
    # 按得分降序排列
    return sorted(scores.items(), key=lambda x: x[1], reverse=True)

结果返回 (文档ID, 匹配次数),便于展示最相关的在前面。

4. 使用现有工具简化开发

如果需要更强功能,推荐使用专用库:

  • Whoosh:纯Python实现的全文搜索引擎,支持中文分词、高亮、分页等。
  • Elasticsearch + elasticsearch-py:工业级搜索,适合大数据量。
  • Meilisearch:轻量且支持拼音、模糊搜索,API友好。

例如用Whoosh创建索引:

from whoosh.index import create_in
from whoosh.fields import Schema, TEXT, ID
import os

schema = Schema(title=TEXT(stored=True), content=TEXT) if not os.path.exists("indexdir"): os.mkdir("indexdir") ix = create_in("indexdir", schema)

writer = ix.writer() writer.add_document(title="Python Intro", content="Learn python programming") writer.commit()

with ix.searcher() as searcher: from whoosh.query import * query = Term("content", "python") results = searcher.search(query) for r in results: print(r["title"])

基本上就这些。从零实现可用倒排索引+查询逻辑,适合学习和小项目;实际生产建议用Whoosh或Meilisearch,省时高效。关键是理解索引、查询、排序这三个环节如何协同工作。不复杂但容易忽略细节,比如分词质量和去停用词会影响效果。

相关文章

python速学教程(入门到精通)
python速学教程(入门到精通)

python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

745

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

634

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1260

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

705

2023.08.11

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

80

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号