在 Linux 中，所有外部资源都以文件形式作为一个抽象视图，并提供一套统一的接口给应用程序调用。本文将以宏观视角试图阐述 Linux 中关于文件 IO 的整个调用脉络。

VFS

在 Linux 中，所有 IO 都必须先经由 VFS 层进行转发。通过 VFS 将包括磁盘、网络 Socket、打印机、管道等资源全部封装成统一的接口。

基础结构

VFS 自顶向下使用四个数据结构来描述文件：

file: 存放一个文件对象的信息。

struct file {
	union {
	    struct llist_node           fu_llist;
	    struct rcu_head             fu_rcuhead;
	} f_u;
	struct path                     f_path;
	struct inode                    *f_inode;    /* cached value */
	const struct file_operations    *f_op;  
	
	struct mutex                    f_pos_lock;
	loff_t                          f_pos;
}

dentry: 存放目录项和其下的文件链接信息。

struct dentry {
	unsigned int                   d_flags;        
	seqcount_t                     d_seq;        
	struct hlist_bl_node           d_hash;    /* 哈希链表 */
	struct dentry                  *d_parent; /* 父目录项 */
	struct qstr                    d_name; /* 目录名 */
	struct inode                   *d_inode; /* 对应的索引节点 */
	unsigned char                  d_iname[DNAME_INLINE_LEN];    /* small names */
	
	struct lockref                 d_lockref;    /* per-dentry lock and refcount */
	const struct dentry_operations *d_op;    /* dentry操作 */
	struct super_block             *d_sb;    /* 文件的超级块对象 */
	unsigned long                  d_time;        
	void                           *d_fsdata;            
	
	struct list_head               d_lru; /* LRU list */
	struct list_head               d_child; /* child of parent list */
	struct list_head               d_subdirs; /* our children */
	
	union {
	    struct hlist_node          d_alias; /* inode alias list */
	    struct rcu_head            d_rcu;
	} d_u;
}

inode: 索引节点对象，存在具体文件的一般信息，文件系统中的文件的唯一标识。

struct inode {
        struct hlist_node                i_hash; /* 散列表，用于快速查找inode */
        struct list_head                 i_list; /* 相同状态索引节点链表 */
        struct list_head                 i_sb_list;  /* 文件系统中所有节点链表  */
        struct list_head                 i_dentry;   /* 目录项链表 */
        unsigned long                    i_ino;      /* 节点号 */
        atomic_t                         i_count;    /* 引用计数 */
        unsigned int                     i_nlink;    /* 硬链接数 */
        uid_t                            i_uid;      /* 使用者id */
        gid_t                            i_gid;      /* 使用组id */
        struct timespec                  i_atime;    /* 最后访问时间 */
        struct timespec                  i_mtime;    /* 最后修改时间 */
        struct timespec                  i_ctime;    /* 最后改变时间 */
        const struct inode_operations    *i_op;     /* 索引节点操作函数 */
        const struct file_operations     *i_fop;    /* 缺省的索引节点操作 */
        struct super_block               *i_sb;          /* 相关的超级块 */
        struct address_space             *i_mapping;     /* 相关的地址映射 */
        struct address_space             i_data;         /* 设备地址映射 */
        unsigned int                     i_flags;        /* 文件系统标志 */
        void                             *i_private; /* fs 私有指针 */
        unsigned long                    i_state;
};

superblock: 超级块对象，记录该文件系统的整体信息。在文件系统安装时建立，在文件系统卸载时删除。

链接

硬链接 VS 软链接:

硬链接为目标文件创建了一个新的 dentry，并将 dentry 写入父目录的数据中。
软链接创建了全新的文件，只不过它的数据保存的是另一个文件的路径，所以它有一个全新的 inode。

硬链接存在的文件必须实际存在，而软链接无所谓目标文件是否存在。

如果删除了原始文件的话，软链接会直接生效，但是硬链接依旧存在，因为 inode 的计数并没有变成0，所以对于硬链接而言，事实上原始文件并没有删除。

Page Cache

当 VFS 读取的 Page 不在 Cache 中时，先从外存读取数据并缓存进 Cache，再返回。之后当再读取同样的 Page 时，会先检查 Page Cache，如果已经存在，便不会再触发下层 IO。

当 VFS 试图写入 Page 时，除了写入外存以外，也会往 Cache 中写入新页。从而使得对新写入的页的读取可以不触发实际外存IO。正是由于这种性质，使得消息队列这类读写都集中在新数据上的应用，即便运行在 HDD 上也能够有惊人的读取性能。

当网络存储遇上 Page Cache

从 IO 层次图中我们可以发现，Page Cache 实现在 VFS 层，当读写都在本地时，的确不会出现问题。但当使用 NFS 这类网络存储时，远程进行的写操作并不能同步给本地，从而导致 Cache 无法被及时地 invalidate，导致读的还是老的数据。对于这种情况可以：

在 NFS 客户端处设置不缓存文件
调低目录属性缓存的最大时间 acdirmax

但如果存储的是不变的数据，例如归档的日志这类，在进行数据分析时，也能够充分利用 Page Cache 提供的缓存优势。

直接 IO

许多应用自身已经实现了缓存策略，此时操作系统自带的 Page Cache 可能会成了冗余。通过在打开文件时候设置 O_DIRECT 可以绕过 Page Cache，直接操作文件。

直接 IO 相比与默认方式减少了内存数据拷贝次数，降低了对 CPU 和内存带宽的使用，在数据量巨大的情况下，可以大大提升性能。

文件系统

文件系统是一种存储和组织数据的方法，使得用户对文件的访问、查找、管理变得更加容易。通过文件系统这一层抽象，隐藏了直接管理外存的复杂性。

下图展示了读取文件 /var/log/messages 的完整过程：

目前人们常用通用文件系统有 ext4 和 xfs。而在诸多细分领域，针对不同场景有非常多的新文件系统在近些年诞生。例如对于海量小文件（常见的图片、静态资源）的存储，有 FastDFS ，对 SSD 有专门优化的 JFFS2。FastDFS 通过在文件系统层把小文件合并成大文件，从而减轻大量小文件对系统的开销。而 JFFS2 通过把 data 和 metadata 在 SSD 上顺序存储，并使用 ouf-of-place 的方式更新，来减轻对 SSD 寿命的影响。

分区

文件系统自身作为一种软件实现并不一定100%可靠，虽然现代文件系统通过日志等技术已经极少出现系统故障，但即便如此，在使用文件系统的过程中，依旧会出现意外情况例如文件写满。通过文件系统的分区可以把故障限制在局部上，不至于造成全局性影响。

FUSE

FUSE 全称 Filesystem in Userspace，是一个支持用户在用户态编写文件系统代码的内核模块，在 Linux 2.6.14 后开始支持。一般多用于分布式文件系统，例如 hdfs，ceph，s3fs 等。

由于 FUSE 极大地简化了文件系统的开发门槛，使得我们用数十行代码便能开发出一个文件系统，于是市面上出现了大量有趣的项目，例如 WikipediaFS，MysqlFS，TwitterFS，GitFS，GmailFS 等。

绕过文件系统读写裸设备

如果仔细观察文件系统的话，会发现它和数据库的部分功能十分类似，而对于数据库而言的话，由于其本身就实现了非常精细的数据组织方式，如果能够进一步接管掉文件系统的工作的话，可以有效地避免两个层级上一些重复工作的产生，从而更加高效地利用存储设备的性能。

于是许多数据库开始尝试了直接操作裸设备的方案，例如 Oracle 以及 Mysql。

通用块层

Linux下有两种基本的设备类型，一种是字符设备，另外一种是块设备。如果一个设备只能以字符流的方式被顺序访问的话，那么属于字符设备，例如打印机。否则则是块设备。Linux 通过通用块层封装了各类块设备的硬件特性，给上层提供了一个通用的抽象视图。

块（Block）是基本的数据传输单元，所以块大小不能小于存储设备的最小可寻址单元，同时由于 Page Cache 的存在，不能大于 Page 大小。

I/O 调度层

I/O 调度层管理块设备的请求队列，主要进行合并和排序进来的 IO 请求。合并 IO 是指对能够并成顺序访问的 IO 合并成一个 IO，以减少随机访问带来的影响。IO 排序主要针对 HDD 这类靠磁道寻址的设备，通过 IO 排序，可以减少寻址时间。