无论你是编程新手还是老手,在编程过程中遇到难题是常有的事。
传统的解决方法是通过论坛提问或谷歌搜索,这通常需要在网页和编程环境间来回切换,即使有大屏幕分屏,效率也会受到影响。
然而,现在有了一个新的解决方案,一个名为codequestion的便捷编程Q&A工具可以帮助你。
你只需在终端中输入你要问的问题,使用日常的自然语言,就像在谷歌搜索一样简单。
随后,工具会立即返回详细的操作指南,实现了在终端内通过对话形式查询操作手册的功能。
这款工具的安装过程也很简单。
安装指南安装codequestion的最简便方法是通过pip或PyPI:
pip install codequestion
你也可以从Github上克隆项目到本地:
pip install git+https://github.com/neuml/codequestion
codequestion需要Python 3.6及以上版本。
对于Linux用户,可以直接运行项目,但Windows和Mac用户需要安装额外的组件。
Windows用户需要安装C++ Build Tools,地址如下:
https://www.php.cn/link/2f93b699c738691d0b53d82ed1e25817
PyTorch的Windows二进制文件不在PyPI上,安装时需要添加以下URL链接:
pip install txtai -f https://download.pytorch.org/whl/torch_stable.html
Mac用户在安装前需要运行以下命令:
brew install libomp
安装完成后,让我们来看一下实际操作测试。
AI驱动的问答机制安装codequestion后,还需下载一个模型:
python -m codequestion.download
这个模型的核心是David Mezzetti之前开发的AI算法txtai。
txtai支持构建文本索引,执行相似性搜索,并创建基于提取式问题回答的系统。
作者还提供了预训练的模型:
unzip cqmodel.zip ~/.codequestion
codequestion是可定制的,可以针对自定义的问答库运行。目前仅支持Stack Exchange库中的问题,未来会增加更多支持选项。
模型安装完成后,可以通过以下命令进行测试:
mkdir -p ~/.codequestion/test/stackexchange wget https://raw.githubusercontent.com/neuml/codequestion/master/test/stackexchange/query.txt -P ~/.codequestion/test/stackexchange wget http://ixa2.si.ehu.es/stswiki/images/4/48/Stsbenchmark.tar.gz tar -C ~/.codequestion/test -xvzf Stsbenchmark.tar.gz python -m codequestion.evaluate -s test
上述代码会将测试数据下载到~/.codequestion/test目录。
下表展示了不同词向量和评分组合的测试结果。
在该数据集中,SE 300d词向量与BM25评分表现最佳。即便减少了词汇量的Stack Exchange问题,SE 300d - BM25在STS基准测试中表现也相当不错。
之前,量子位也介绍过一个类似的Linux命令行查询工具,直接在终端输入问题即可获得答案。
不同之处在于,当时的工具howdoi是在线技术论坛上搜索已有答案,范围较为有限。
那么codequestion的AI驱动机制有何优势呢?
基本原理第一步:原始数据处理
来自Stack Exchange库的原始7z XML转储通过一系列步骤进行处理。
只有高分的问题和答案才会被检索并存储在模型中。
问题和答案被整合到一个名为questions.db的SQLite文件中。questions.db的模式如下:
Id INTEGER PRIMARY KEY Source TEXT SourceId INTEGER Date DATETIME Tags TEXT Question TEXT QuestionUser TEXT Answer TEXT AnswerUser TEXT Reference TEXT
第二步:检索
codequestion工具为questions.db建立了一个句子嵌入索引。
每个问题都会被标记,并解析为词嵌入。
词嵌入模型是基于questions.db的自定义fastText模型。一旦某个token被转换为词嵌入,就会创建一个加权的句子嵌入。
词嵌入使用BM25索引对资源库中的所有token进行加权,但有一个重要修改:标签被用来提升标签标记的权重。
一旦question.db被转换为句子嵌入的集合,它们就会被归一化并存储在Faiss中,从而可以进行快速的相似性搜索。
第三步:查询
codequestion使用与索引相同的方法对每个查询进行标记。这些标记被用来建立一个句子嵌入。根据Faiss索引对该嵌入句进行查询,以找到最相似的问题。
离线开发的好帮手可以看出,codequestion工具的优势在于灵活的搜索匹配问题,并且能够根据问题回答的质量优先推选好的回答。
这一点是类似工具使用关键词匹配搜索答案无法比拟的。
目前codequestion的局限在于只支持Stack Exchange中的问题,但作者承诺后期会加入更多的库。

以上就是写代码、搜问题,全部都在「终端」完成!如此编程神器,是时候入手了的详细内容,更多请关注php中文网其它相关文章!
编程怎么学习?编程怎么入门?编程在哪学?编程怎么学才快?不用担心,这里为大家提供了编程速学教程(入门课程),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号