博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
缓存的原理
阅读量:6696 次
发布时间:2019-06-25

本文共 2049 字,大约阅读时间需要 6 分钟。

hot3.png

缓存真的有效?

 

真的。嗯,根据计算机访问数据经常会呈现出的局部性原理。局部性原理又包括空间局部性和时间局部性。空间局部性就是说,计算机访问数据,而其存储在邻近的数据也经常会被访问。时间局部性就是说,在相对的一小段时间内,计算机经常会访问相同的数据。实际中是怎么运用局部性原理的呢,比如说,计算机从硬盘中读块,计算机不会只读你要的特定块,附近的快很有可能接下来要被访问,他会把这些块也一起预读出来。接下来要读附近的快的时候,就不需要再访问硬盘了。这样,运用局部性原理就减少了访问磁盘的次数。附近的快就被缓存了起来,加快了运行速度。

 

缓存什么?

 

所有处理需要相对较长时间的内容都可以缓存,比如说,将图像显示到屏幕上,图像解码相对于渲染所需时间较长,我们就会缓存图像解码。再比如,客户端从服务器获取数据相对计算所需时间较长,我们就会缓存从服务器获取的数据。这样最终达到速度匹配,让整个处理过程中,没有那步处理时间太长。

缓存这个用空间换时间的概念存在着计算机的各个领域,cpu、操作系统、计算机网络、数据库。从这些领域我们可以借鉴他们是如何实现缓存的,然后再来考虑实现自己的缓存。缓存是分层次的,下面是计算机缓存山
 
每一层实际上都可以看做下一层的高速缓存,从山顶到山脚,计算机访问到的时间递增,而每一层的物理硬件造价递减,cpu计算数据先从山顶开始找数据,如果本层没有找到就去下层找,每向下找一层,找的层数越多,计算所需的时间自然就越多。
 

如何找到对应的缓存?

 

索引+映射。为缓存的内容增加一个索引。对于cpu运算的数据,索引是按地址划分出来的,对于应用层来说索引就是缓存的key值。索引可以分为一对一相联、组相联、全相联。索引构成了一个的集合,缓存构成了一个的集合,这两个集合之间有映射关系,直接从索引集合查找就可以找到对应的缓存了。那为什么不直接从缓存集合找呢?假设缓存容量有4KB,每个缓存大小为16B,那么一共有256个缓存。缓存的索引范围就是0到255,索引集合占256B。如果从索引集合查找,只需遍历256B的空间,从缓存集合查找需要遍历4KB的空间,明显索引集合可以加快查找的速度。这也就是为什么用一个小的空间去映射大的空间。

 

cpu缓存策略:

 

cpu在寄存器中计算数据,而数据存储在内存中,由于cpu和内存之间的性能逐渐增大,系统设计者在cpu和内存之间插入了3层的高速缓存。高速缓存有三个层级,就是整个计算机缓存系统的一个小缩影。

 

缓存涉及到,读操作、写操作和层级之间如何协调、缓存容量满了后的淘汰算法。淘汰下面会讲,这里关注一下读写操作和层级之间的协调。

 

高速缓存的读很简单,先从高层读数据,如果缓存命中了就返回数据。如果不命中就去低层读,如果从低层命中,返回数据的同时将低层的数据写入高层。

 

高速缓存的写复杂一点,先直接向高层写入数据,但是何时向低层写入呢?一种是直写(write-through),就是立即向低层写入。另一种是写回(write-back),等到算法淘汰的时候再向底层写入。直写实现起来简单,但是每次写入都会有更多的总线流量。第二种,减少了总线流量,增加了复杂度,他必须为每个缓存对象保存是否修改(dirty位),即是否写入低层。向低层写,时间消耗主要在访问的时间上,每次写的量多少,差别不大。高速缓存就是使用的写回,Mongo也是写回。

 

抽象块:

 

理解操作系统的缓存策略之前,有一个重要的概念就是抽象块。抽象块呢,主要就在抽象两字上。而抽象主要的目的是为了隐藏不同层次的细节。比如,硬盘传输数据给内存,硬盘传输的是一个块(block),这个块就是对于硬盘的抽象,硬盘要想找到数据,必须进行磁盘的旋转和寻道,内存根本不关心,硬盘旋转了几圈还是数据在那条道上,内存只关心数据是什么,所以,硬盘只给内存一个块(block),硬盘向内存隐藏如何存取的细节。同样的思想也在网络五层协议中,每层都给高层或底层一个“块”(实际上叫包,packet),本层不关心其他层的细节,本层直接在块上头部和尾部加上自己层做的事,然后传给高层或者低层,应用层管本层的块叫报文,传输层叫报文段,网络层叫数据报。

 

毕加索的牛抽象过程,一步一步隐藏细节,嗯,到最后已不能看出是牛了。

 

操作系统缓存策略:

 

在操作系统中,硬盘给内存的抽象块就是页(page)。从磁盘上读取页导致的I/O是很耗时间的,所以页就被缓存在内存中,这就是页的缓存。操作系统调用文件系统就使用这种页缓存。简单来说,内存中的页也就成了文件系统的缓存。页在硬盘中就叫做虚拟页,在内存中就叫物理页。

 

 

数据库缓存策略:

 

和操作系统缓存策略相似,数据库将块缓存在内存上,叫做缓冲区(buffer),由缓存区管理器管理,大多数数据库使用的算法为近似LRU算法。数据库缓存为了在崩溃后,也要保持一致性,有时会将块强制写回,有时会限制块的写回。

转载于:https://my.oschina.net/blacklands/blog/864956

你可能感兴趣的文章
Micronaut教程:如何使用基于JVM的框架构建微服务
查看>>
一个“Internal”牵扯出的代码泄露,阿里云独家回应
查看>>
微软超过苹果 成为全球第一大市值公司
查看>>
比特币寒冬中,你更应该关注企业区块链!
查看>>
\"Grokking Algorithms\"简介与作者采访
查看>>
停止过度设计,开发客户需要的软件
查看>>
用WinForm/WPF代码来为.NET Core 3.0功能投票
查看>>
边缘控制平面Ambassador全解读
查看>>
F#创建者Don Syme谈F#设计原则
查看>>
微软正在考虑将Windows默认浏览器改为Chromium
查看>>
从蚂蚁金服实践入手,带你深入了解 Service Mesh
查看>>
京东购物在微信等场景下的算法应用实践
查看>>
MongoDB Mobile Sync for iOS推出Beta版本
查看>>
VS Code 0.5添加ES6支持和Git工具改进
查看>>
F# 4.0于全平台发布
查看>>
回顾小程序2018年三足鼎立历程,2019年BAT火力全开
查看>>
Facebook开源ptr:在Python环境中并行运行单元测试
查看>>
避免流量高峰期CDN问题的10个方法
查看>>
分布式系统的开发经验与心得
查看>>
Apple着手抛弃32位macOS应用程序
查看>>