半监督学习-linux运维-PHP中文网

半监督学习

看不見的法師

发布： 2025-07-19 11:44:30

原创

1015人浏览过

半监督学习是指利用少量有标记数据和大量无标记数据来进行训练的过程。

半监督学习在某些特定领域，获取大量有标记的数据是困难的。

例如，我们有一个完全标注的公开数据集。我们可以先使用有监督学习的方法进行测试，然后使用10%的标注数据结合90%的未标注数据进行半监督学习，期望达到与有监督学习相似的效果。

半监督学习的应用包括视频理解、自动驾驶、医疗影像分割和心脏信号分析。半监督学习的前提假设包括：

连续性假设(Continuity Assumption)：半监督学习以分类问题为例，当输入数据较为接近时，比如在猫狗分类中，两张猫的图片非常相似，那么它们的输出（后验概率矩阵）也应该相似。

半监督学习例如，x1和x2非常接近，x1的后验概率为0.9和0.1，明显属于第一类。x2有两组输出，一组为0.85和0.15，另一组为0.55和0.45。虽然两组输出都将类别归为第一类，但第二组输出

半监督学习不符合连续性假设，因为它与

半监督学习差异较大。

聚类假设(Cluster Assumption)：半监督学习聚类假设要求类内数据要紧密聚集，类间数据要分开。即同一类的数据要非常相似，接近于一点，而不同类别要尽量分开。因此，不能有模糊不清的图片，如

半监督学习流行假设(Manifold Assumption)：所有数据点都可以用低维流行来表示。相同流行上的数据点具有相同的标签。这可以理解为降维，许多高维数据的某些维度是不起作用的，其特征集中在一些低维度上。

半监督学习的数学定义如下：

半监督学习上表来自学术论文，x代表输入，y代表输出，可以是分类输出或回归输出；

半监督学习代表有标签的数据集；

代表无标签的数据集；X是整个数据集，包括有标签和无标签的数据；L是损失函数；G是生成器，半监督学习可以使用生成式模型；D是判别器；C是分类器；H是熵，通常指交叉熵；E是期望；R是正则项，半监督学习中通常指一致性正则，当然也可以使用传统的L1和L2正则；

半监督学习指的是标签。

半监督学习的核心是其损失函数，通常包括三部分：第一部分是有监督的损失（supervised loss），第二部分是无监督的损失（unsupervised loss），第三部分是正则项（regularization）。由于半监督学习有少量有标签的数据，第一部分是这些有标签数据的损失；第二部分是大量未标注数据的损失；第三部分可以使用L1、L2正则或一致性正则。

韩顺平PHP入门到精通全套笔记

韩顺平，毕业于清华大学，国内著名的软件培训高级讲师，先后在新浪、点击科技、用友就职。主持或参与《新浪邮件系统》、《橙红sns(社会化网络)网站》、《点击科技协同软件群组服务器端(Linux/solaris平台)》、《国家总参语音监控系统》、《英语学习机系统》、《用友erp(u8产品)系统》等项目。实战经验丰富，授课耐心细致，通俗易懂，勇于实践，勤于创新，授课风格贴近生活，授课语言生动风趣，多年