我们从源码的角度看一下它们实现有哪些区别。
select:客户端操作服务器时会生成三种文件描述符 fd:readfds(读)、writefds(写)和 exceptfds(异常)。
int select(
int maxfd,
fd_set *readset,
fd_set *writeset,
fd_set *exceptset,
struct timeval *timeout
);
返回值:
Ready_fd -> Ready_fd num // 当调用select时,返回就绪的fd数量
Timeout -> 0 // 超时返回0
Error -> -1 // 错误返回-1
当遍历函数 select() 执行时,会阻塞当前线程(老师啥也不做,等着看哪个学生举手了),以监视这 3 类文件描述符,等有数据可读、可写或者产生异常时,就会返回。返回后通过遍历 fdset 整个数组来找到已就绪的 fd,然后进行相应的 IO 操作。
优点:几乎所有的平台都支持;
缺点:
- 单个进程打开的 fd 限制数量为 1024 个(32位机器),可通过宏定义修改,但是效率依旧很慢;
- 每次调用 select() 时,需要把 fd 数据从用户态拷贝到内核态,频繁复制开销很大;
- 轮询方式遍历,会随着套接字 fd 的数量增多,性能下降。且每次都需要全部遍历,浪费CPU 时间,时间复杂度为 O(n)。
poll:基本原理与 select 一致,也是轮询 + 遍历,区别是 poll 中 fd 没有最大数量的限制(使用链表的方式存储 fd)。
int poll (
struct pollfd *fds, // 链表存储
unsigned long nfds,
int timeout
);
返回值:
Ready_fd -> Ready_fd num
Timeout -> 0
Error -> -1
struct pollfd {
int fd; // file descriptor,文件描述符
short events; // events to look for,不变
short revents; // events returned,返回
}
epoll:没有 fd 个数限制,且 fd 集合从用户态到内核态只需要一次,使用时间通知机制来触发。通过 epoll_ctl 注册 fd,一旦 fd 就绪就会通过回调地址来激活对应的 fd,进行相关的 IO 操作。
int epoll_create(int size);
int epoll_ctl (
int epfd,
int op,
int fd,
struct epoll_event *event
);
int epoll_wait (
int epfd,
struct epoll_event *events,
int maxevents,
int timeout
)
typedef union epoll_data {
void *ptr;
int fd;
uint32_t u32;
uint64_t u64;
}epoll_data_t;
struct epoll_event {
uint32_t events; // epoll events
epoll_data_t data; // user data variable
}
epoll 之所以性能高是得益于它的三个函数:
- epoll_create() 系统启动时,在 Linux 内核里创建 epoll 实例(申请一个红黑树 rbTree 和就绪链表 readyList),以便存放 socket 节点;
- epoll_ctl() 每新建一个连接,都通过该函数操作 epoll 对象,在这个对象的红黑树里增、删、改对应的 socket 节点,绑定一个回调函数;
- epoll_wait() 轮询所有的回调集合,并完成对应的 IO 操作。相应分三步:
- 阻塞线程
- 内核查找红黑树中准备好的 socket,放入就绪链表 rdlist
- 就绪列表中的内容复制到 events(从内核态复制到用户态),准备循环处理这些已就绪的 socket 节点
示例:
int fds[] = ...;
int efd = epoll_create(...); //内核态创建epoll实例(包含红黑树rbTree和就绪链表readyList)
for (int i=0; i<fds.count; i++) {
epoll_ctl(efd, ..., fds[i], ...); //对红黑树操作,添加所有的socket节点
}
struct epoll_event events[MAX_EVENTS];
while(true) {
/*
1.阻塞线程
2.内核查找红黑树中准备好的socket,放入就绪链表rdlist
3.就绪列表中的内容复制到events
*/
int n=epoll_wait(efd, &events, ...);
if (n>0) {
for (i=0; i<n; i++) {
events[i].data.fd; // 这里有所有需处理的socket,不需要像select和poll那样全部遍历
}
}
}
优点:
- 没有 fd 限制,所支持的 fd 上限时操作系统的最大文件句柄数,1G 内存大概支持 10 万个句柄;
- 效率高,采用回调通知而不是轮询的方式,即使 fd 数目增加,时间复杂度仍为 O(1);
- 用户与内核空间基于一种内存映射文件的方法,使它们可以共享内存空间,减少文件从用户态移动到内核态带来的性能消耗。
LT 和 ET:
- LT,level triggered,水平触发,又叫条件触发。当被监控的 fd 上有可读写的事件时,epoll_wait() 会通知处理程序去读写。如果这次没有把数据一次性全部读写完,那么下次调用 epoll_wait() 时,它还会通知你上次没有读写完的 fd,可继续读写。而且我们不需要读写的 fd,它也会一直通知你。
- ET,edge triggered,边缘触发。当被监控的 fd 上有可读写事件时,epoll_wait() 会通知处理程序去读写。如果这次没有把数据全部读完,下次将不再通知。
- 学过计算机组成原理的应该知道脉冲信号,其实 ET 和 LT 的原理和电信号的变化差不多。LT 就是只有高电平(1)或低电平(0)时才触发通知,只要在指定的状态上,就会得到通知;ET 是只有电平发生变化时(从高电平到低电平,或者从低到高),才触发通知。
三者实践对比:
例如,100w 个连接,里面有 1w 个活跃连接。
select:不修改宏定义时,默认把 1024 个 fd 放到同一个进程。则需要 100w/1024 = 977 个进程才可以支持,会使得 CPU 性能特别差;
poll:没有最大文件描述符限制,100w 个连接则需要 100w 个 fd,遍历特别慢不说,还有空间拷贝还会消耗大量的资源;
epoll:请求进来时就创建 fd 并绑定一个回调地址,当活跃连接发起请求 IO 操作时,epoll_wait() 函数只需要遍历这 1w 个活跃连接,进行相应的额操作即可,既高效又不用做内存拷贝。