0

0

使用 Python 进行词嵌入:Wordc

心靈之曲

心靈之曲

发布时间:2024-09-20 17:39:26

|

412人浏览过

|

来源于dev.to

转载

使用 python 进行词嵌入:wordc

使用 python(和 gensim)实现 word2vec

  • 注意:此代码是用 python 3.6.1 (+gensim 2.3.0) 编写的

  • word2vec与gensim的python实现及应用

import re
import numpy as np

from gensim.models import word2vec
from nltk.corpus import gutenberg
from multiprocessing import pool
from scipy import spatial
  • 导入训练数据集
  • 从nltk库导入莎士比亚的哈姆雷特语料库
sentences = list(gutenberg.sents('shakespeare-hamlet.txt'))   # import the corpus and convert into a list

print('type of corpus: ', type(sentences))
print('length of corpus: ', len(sentences))

语料库类型:类“list”
语料库长度:3106

print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['[', 'the', '悲剧', 'of', '哈姆雷特', 'by', '威廉', '莎士比亚', '1599', ']']
['actus', 'primus', '.']
['弗兰', '.']

预处理数据

  • 使用re模块预处理数据
  • 将所有字母转换为小写
  • 删除标点符号、数字等。
for i in range(len(sentences)):
    sentences[i] = [word.lower() for word in sentences[i] if re.match('^[a-za-z]+', word)]  
print(sentences[0])    # title, author, and year
print(sentences[1])
print(sentences[10])

['the'、'悲剧'、'of'、'哈姆雷特'、'by'、'威廉'、'莎士比亚']
['actus', 'primus']
['弗兰']

创建和训练模型

  • 创建 word2vec 模型并使用 hamlet 语料库对其进行训练
  • 关键参数说明(https://radimrehurek.com/gensim/models/word2vec.html)
    • 句子:训练数据(必须是带有标记化句子的列表)
    • size:嵌入空间的尺寸
    • sg: cbow 如果为 0,skip-gram 如果为 1
    • 窗口:每个上下文所占的单词数(如果窗口
    • 大小为3,考虑左邻域中的3个单词和右邻域中的3个单词)
    • min_count:词汇表中包含的最小单词数
    • iter:训练迭代次数
    • workers:要训练的工作线程数量
model = word2vec(sentences = sentences, size = 100, sg = 1, window = 3, min_count = 1, iter = 10, workers = pool()._processes)

model.init_sims(replace = true)

保存和加载模型

  • word2vec模型可以本地保存和加载
  • 这样做可以减少再次训练模型的时间
model.save('word2vec_model')
model = word2vec.load('word2vec_model')

相似度计算

  • 嵌入单词(即向量)之间的相似度可以使用余弦相似度等指标来计算
model.most_similar('hamlet')

[('horatio', 0.9978846311569214),
('女王', 0.9971947073936462),
('莱尔特斯', 0.9971820116043091),
('国王', 0.9968599081039429),
('妈妈', 0.9966716170310974),
('哪里', 0.9966292381286621),
('迪尔', 0.9965540170669556),
('奥菲莉亚', 0.9964221715927124124),
('非常', 0.9963752627372742),
('哦', 0.9963476657867432)]

v1 = model['king']
v2 = model['queen']

# define a function that computes cosine similarity between two words
def cosine_similarity(v1, v2):
    return 1 - spatial.distance.cosine(v1, v2)

cosine_similarity(v1, v2)

0.99437165260314941

中解商务通
中解商务通

实时捕捉 一旦访问者打开您的网站,系统会立即显示,这时您就可以查看用户的信息,如:来自搜索引擎关键词、友情链接或直接访问;访问者的IP地址,所在地区,正在访问哪个网页;以及访问者使用的操作系统、浏览器、显示器屏幕分辨率颜色深度等。 主动出击 变被动为主动,可以主动邀请访问者进行洽谈勾通,帮助客户深入了解您的企业和产品,同时获得对方的采购意向、联系方式等信息。 互动交流 主动销售和在线客服合二为一,

下载

参考文献:

立即学习Python免费学习笔记(深入)”;

  • 原始论文:mikolov, t.、chen, k.、corrado, g. 和 dean, j. (2013)。向量空间中单词表示的有效估计。 arxiv 预印本 arxiv:1301.3781.

相关文章

WPS零基础入门到精通全套教程!
WPS零基础入门到精通全套教程!

全网最新最细最实用WPS零基础入门到精通全套教程!带你真正掌握WPS办公! 内含Excel基础操作、函数设计、数据透视表等

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

771

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

679

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1345

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

730

2023.08.11

菜鸟裹裹入口以及教程汇总
菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享,阅读专题下面的文章了解更多详细内容。

0

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 12万人学习

Django 教程
Django 教程

共28课时 | 3.4万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号