【Linux】探索文件I/O奥秘，解锁软硬链接与生成动静态库知识-linux运维-PHP中文网

1、C文件接口1.1什么是当前路径？

进程开始启动时，进程所在的路径默认就是当前路径

1.2程序默认打开的文件流：stdin 标准输入，键盘设备stdout 标准输出，显示器设备stderr 标准错误，显示器设备

仔细观察发现，这三个流的类型都是FILE*, fopen返回值类型，文件指针，那什么是FILE类型呢？这是C标准库自己封装的一个结构体。

2、系统文件I/O

操作文件，除了C接口（当然，C++也有接口，其他语言也有），我们还可以采用系统接口来进行文件访问

为什么访问文件不仅仅有C语言上的文件接口，OS必须提供对应的访问文件的系统调用？

原因：

其实上述讲的C语言接口是OS系统调用函数的封装，系统调用函数封装了C语言接口，是为了可移植性和跨屏平台性！

2.1.接口介绍：2.1.1open：参数讲解;

pathname: 要打开或创建的目标文件

flags: 打开文件时，可以传入多个参数选项，用下面的一个或者多个常量进行“或”运算，构成flags。

O_RDONLY: 只读打开O_WRONLY: 只写打开O_RDWR : 读，写打开

上面这三个常量，必须指定一个且只能指定一个

O_CREAT : 若文件不存在，则创建它。需要使用mode选项，来指明新文件的访问权限O_APPEND: 追加写，不会将文件内容刷新，是进行内容的追加。

mode选项：

指明新文件的访问权限。

返回值：成功：新打开的文件描述符失败：-1

flags如何实现一个参数就可以有多个参数传参的效果？

我们通过flag标记位，看看哪个位上有1就输出哪一位，我们用位运算的方式来实现传多个参数的目的！

代码语言：javascript代码运行次数：0运行复制

int fd1 = open("log1.txt", O_WRONLY|O_CREAT|O_TRUNC, 0666);

登录后复制

所以我们的flags就实现一个参数就可以有多个参数传参的效果！

注意点：

不要往文件里面书写'/0'，这样会造成乱码。我们要清楚'/0'本身并不是字符串内容的一部分，而是指明字符串结束的标志。

open 函数具体使用哪个，和具体应用场景相关，如目标文件不存在，需要open创建，则第三个参数表示创建文件的默认权限,否则，使用两个参数的open。

open函数的返回值：

open函数的返回值文件描述符到底是什么呢？

在认识返回值之前，先来认识一下两个概念: 系统调用和库函数

上面的 fopen fclose fread fwrite 都是C标准库当中的函数，我们称之为库函数（libc）。而， open close read write lseek 都属于系统提供的接口，称之为系统调用接口回忆一下我们讲操作系统概念时，画的一张图

系统调用接口和库函数的关系，一目了然。所以，可以认为，f#系列的函数，都是对系统调用的封装，方便二次开发。

C语言的文件接口，本质就是封装了系统调用！

3.文件描述符fd

通过对open函数的学习，我们知道了文件描述符就是一个小整数

3.1 0 & 1 & 2

Linux进程默认情况下会有3个缺省打开的文件描述符，分别是标准输入0，标准输出1，标准错误2. 0,1,2对应的物理设备一般是：键盘，显示器，显示器

文件描述符的本质就是数组下标！

当我们打开文件时，操作系统在内存中要创建相应的数据结构来描述目标文件。于是就有了file结构体。表示一个已经打开的文件对象。而进程执行open系统调用，所以必须让进程和文件关联起来。

3.2进程怎么知道了打开哪些文件呢？

每个进程都有一个指针*files, 指向一张表files_struct,该表最重要的部分就是包涵一个指针数组，每个元素都是一个指向打开文件的指针！所以，本质上，文件描述符就是该数组的下标。所以，只要拿着文件描述符，就可以找到对应的文件！

3.3文件描述符的分配规则&&利用规则实现重定向fd的分配规则：

最小的没有被使用的数组下标，会分配给最新打开的文件

代码语言：javascript代码运行次数：0运行复制

#include <stdio.h>#include <sys/types.h>#include <sys/stat.h>#include <fcntl.h>#include <stdlib.h>int main(){close(1);int fd = open("myfile", O_WRONLY|O_CREAT, 00644);if(fd < 0){perror("open");return 1;}printf("fd: %d\n", fd);fflush(stdout);close(fd);exit(0);}

登录后复制

此时，我们发现，本来应该输出到显示器上的内容，输出到了文件 myfile 当中，其中，fd＝1。这种现象叫做输出重定向。常见的重定向有:>, >>, 使用 dup2 系统调用

将旧的内容指向的指针指向了新，因此最后都只剩下old。

以后重定向只需要使用dup2函数即可。

直接完成重定向：

下图就是完成了输出重定向——>dup2(oldfd,1)

照常还是从0里面读数据，但是我们不从键盘上读了，我们从log.txt里面进行读取

4.缓冲区问题4.1c语言为什么要存在语言层面上的缓冲区？

我们再调用fwrite的时候，有效减少我们调用系统中的write，我们要清楚调用系统调用是有成本的，时间和空间的成本，每次调用fwrite，我们可能把数据放在了语言层面的缓冲区，有效减少调用系统调用的次数，也是减少了系统拷贝的次数！本质就是用空间换时间，增加效率。

4.2那什么时候开始刷新到系统当中的缓冲区呢？无刷新，无缓冲行刷新——显示器，xxxxx\n，遇到换行符就会刷新全缓冲，全部刷新——普通文件，缓冲区被写满，才会刷新自己调用fflush函数强制刷新进程退出的时候，要自动刷新4.3缓冲区在哪里呢？

就在file*指向的结构体里面

每个文件都有一个缓冲区

4.4与fork函数的结合

为什么C语言层面的fwrite和fprintf写了两份，而write只写了一份？

fork之前就已经把3条消息打印出来了，如果向显示器进行打印，刷新方案就是行

write是直接将内容输入到了系统内部的缓冲区当中，而C语言调用的fwrite是将内容放在了语言层面的缓冲区。C语言层面的缓冲区是在FILE里面的。一旦利用write将内容放在了系统内部，那么就跟进程没有关系了

fwrite函数重定向到了普通文件，那么刷新策略就会变成全刷新，而write是输出到显示器上的，因此就是行刷新！

重定向之后，对test.txt刷新策略，缓冲区刷新策略立即变成了全缓冲，因为不会把缓冲区填满，所以在调用fork函数的时候，内容还在缓冲区当中。所以只有在进程结束的时候才会刷新缓冲区，缓冲区内保存的是进程的数据，——父进程的数据，对缓冲区进行写时拷贝，父进程有一份，子进程也有一份，所以最后才会输出两次

write函数因为是行刷新，在fork之前就已经刷新缓冲区了，就不存在将缓冲区的内容写时拷贝到子进程的情况

5、关于磁盘等相关硬件知识

系统中是不是所有的文件都被打开了呢？大部分文件都是没有被打开的。如果没有被打开的文在哪里保存呢？

答：在磁盘、SSD当中保存，那么OS要不要管理一下磁盘上的文件呢？一定要，那现在的问题就是如何让OS快速定位一个文件！

5.1、磁盘的机械构成

5.2、磁盘的物理存储

每个磁盘是由一个一个小的同心圆也就是磁道组成的。

扇区：是磁盘IO的基本单位

如果我想访问磁盘中一个扇区：通过磁头进行定位到具体的磁道/柱面（cylinder），然后确定使用哪一个磁头（head），最后再确定哪一个扇区（sector）。这就是我们的CHS定位法！

那么任何文件，不就是多个扇区承载的数据！

5.3、磁盘的逻辑存储

我们其实可以把磁盘的存储当成线性结构来看待（磁带当中的长线条）。

因此我们对磁盘的管理，就变成了对数组的增删改查！

N世界

一分钟搭建会展元宇宙

138

查看详情

我们可以采用分治的思想，将很大的内存分成多个小块，我们对每一个小块内存的管理模式可以逐个采用到其他小块，这样我们就能根据分治的思想管理更大的内存！

5.4文件系统

比如说我们将800个GB分成多个小块内存，分成10个GB，那么我们如何管理这10个GB内存的空间呢？

磁盘是典型的块设备，硬盘分区被划分为一个个的block。一个block的大小是由格式化的时候确定的，并且不可以更改。

Linux磁盘文件特性：文件 = 内容 + 属性。

内容和属性分开存储，文件名不属于文件属性！系统中，标识一个文件，用的不直接是文件名，而是inode！

Block Group：ext2文件系统会根据分区的大小划分为数个Block Group。而每个Block Group都有着相同的结构组成。将一个大的内存分成多个小块。超级块（Super Block）：存放文件系统本身的结构信息。记录的信息主要有：bolck 和 inode的总量，未使用的block和inode的数量，一个block和inode的大小，最近一次挂载的时间，最近一次写入数据的时间，最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block的信息被破坏，可以说整个文件系统结构就被破坏了！（最重要！）块位图（Block Bitmap）：Block Bitmap中记录着Data Block中哪个数据块已经被占用，哪个数据块没有被占用inode位图（inode Bitmap）：每个bit表示一个inode是否空闲可用。i节点表(inode table):存放文件属性。如文件大小，所有者，最近修改时间等数据区（data block）：存放文件内容注意：

inode编号，在整个分区内唯一，不是在分组内唯一！

找一个文件，就是通过inode编号找，前提是你怎么知道你的文件在哪一个分组里面

super block为什么不每一份文件就存储一份？

这样效率太慢

super block为什么不具有唯一性：

增加容错率，如果只有一份，如果这一份信息被破坏，那么后面整个文件系统都被破坏掉了，存储多余的几份相当于备份!

inode存属性，data block存储内容

1、那我们的文件名在哪里呢？

任何一个普通文件的文件名，一定在一个目录当中！

目录是不是文件？是的！目录里面存储着文件编号（inode）+目录的内容（对应该目录存储的每一个文件名，inode编号的映射关系）

2、重谈文件的增删改查：

如果一个目录没有r，w，x权限，是创建不了文件的！因为对应着改目录文件的内容。对于一个文件，进行增删改查，都和该文件所处的目录有关系！