专栏名称: 石杉的架构笔记
专注原创、用心雕琢!十余年BAT一线大厂架构经验倾囊相授
目录
相关文章推荐
大家居洞察  ·  大股东出手!美凯龙或获建发6亿元租金收入 ·  昨天  
大家居洞察  ·  大股东出手!美凯龙或获建发6亿元租金收入 ·  昨天  
会计雅苑  ·  深圳证券交易所2024-2026年财务报告审 ... ·  2 天前  
会计雅苑  ·  审计费2260万!律师费1696万!一公司即 ... ·  3 天前  
马靖昊说会计  ·  央财与上财并列第一,2025ABC中国财经大 ... ·  3 天前  
51好读  ›  专栏  ›  石杉的架构笔记

蚂蚁金服二面:面试官问我零拷贝的实现原理,当场跪。。。

石杉的架构笔记  · 公众号  ·  · 2019-11-29 08:57

正文


扫描下方海报 试读


本文来源: 占小狼的博客



"狼哥,面试又跪了,碰到了知识盲区"

"哪个?"

"一面还可以,二面面试官问我零拷贝的原理,懵逼了...这块内容没去研究过"

"哦,这个知识点,我之前应该有讲过,你没注意到?"

"这东西工作中用不到,可能被我忽略了"

"啧啧啧..."

"哎,有空和我讲讲?"

"先从简单开始,实现下这个场景:从一个文件中读出数据并将数据传到另一台服务器上?"

"为啥写这个?"

"你先写"

"行..."

1分钟后

"我写了伪代码"

  1. 
        
    1. File .read(file, buf, len);

    2. Socket .send(socket, buf, len);

"这里涉及到了几次数据拷贝?"

"2次?磁盘拷贝到内存,内存拷贝到Socket?"

"emmm,怪不得挂了,不冤"

"这种方式一共涉及了4次数据拷贝,知道用户态和内核态的区别吗?"

"了解"

"行,文字有点干瘪,你先看这个图"

1、 应用程序中调用 read() 方法,这里会涉及到一次上下文切换(用户态->内核态),底层采用DMA(direct memory access)读取磁盘的文件,并把内容存储到内核地址空间的读取缓存区。

2、 由于应用程序无法访问内核地址空间的数据,如果应用程序要操作这些数据,得把这些内容从读取缓冲区拷贝到用户缓冲区。

read() 调用的返回引发一次上下文切换(内核态->用户态),现在数据已经被拷贝到了用户地址空间缓冲区,如果有需要,可以操作修改这些内容。

3、 我们最终目的是把这个文件内容通过Socket传到另一个服务中,调用Socket的 send() 方法,又涉及到一次上下文切换(用户态->内核态)

同时,文件内容被进行第三次拷贝,这次的缓冲区与目标套接字相关联,与读取缓冲区无关。

4、 send() 调用返回,引发第四次的上下文切换,同时进行第四次拷贝,DMA把数据从目标套接字相关的缓存区传到协议引擎进行发送。

" 整个过程中,过程1和4是由DMA负责,并不会消耗CPU,只有过程2和3的拷贝需要CPU参与"

整明白了?

"我消化一下..."

半小时后...

"狼哥,感觉这个过程中好几次的拷贝都是多余的,很影响性能啊"

"对,所以才有了零拷贝技术"

"具体咋实现?"

"慢慢来,如果在应用程序中,不需要操作内容,过程2和3显然是多余的,如果可以直接把内核态读取缓存冲区数据直接拷贝到套接字相关的缓存区,是不是可以达到目的?"

这种实现,可以有以下几点改进:

  • 上下文切换的次数从四次减少到了两次

  • 拷贝次数从四次减少到了三次(其中DMA copy 2次,CPU copy 1次)

"怎么实现?"

"在Java中,FileChannel的transferTo() 方法可以实现这个过程,该方法将数据从文件通道传输到给定的可写字节通道, 上面的 file.read() socket.send() 调用动作可以替换为 transferTo() 调用"

  1. publicvoid transferTo(long position, long count, WritableByteChannel target);

在 UNIX 和各种 Linux 系统中,此调用被传递到 sendfile() 系统调用中,最终实现将数据从一个文件描述符传输到了另一个文件描述符。







请到「今天看啥」查看全文