Redis源码阅读:Redis字符串SDS详解

SDS 基本概念

简单动态字符串（Simple Dynamic String）SDS，用作Redis 的默认字符串。

C语言中的字符串：以空字符结尾的字符数组

SDS实现举例

redis > SET msg "hello world"
OK

我们通过 SET 在 Redis 数据库中创建了一个数据键对象为 "msg" 和数据值对象为 "hello world" 的键值对，其中数据键和数据值对象底层的字符串实现都是 SDS 。同时， SDS 还被用于 AOF 缓冲区。

SDS 定义

struct sdshdr {
    # 记录 buf 数组中已使用字节的数量，即当前字符串长度值  
    # 等于 SDS 所保存字符串的字节长度
    int len;
    # 记录 buf 数组中未使用字节的数量，buf空余可用的长度，append时使用  
    int free;
    # 字节char数组，用于保存字符串，实际保存字符串数据，最后一个字节保存了空字符 '\0'
    char buf[];
};

buf 属性的字节数组中的字符串长度等于 len 属性值加上1，因为 Redis遵循 C语言的规范，在SDS数据类型字符串的结尾加上了空字符串，额外占用 1 个字节空间，这1个字节空间不计算在 SDS 的 len属性里面。

由于SDS将字符串的结尾加上了空字符串符合C语言字符串规范，Redis 字符串操作可以兼容C语言中一部分字符串库中的函数，Redis 无需专门为 SDS在编写一套函数。

SDS的优点

常数复杂度获取字符串长度

C字符串需要遍历整个字符串，计数，直到碰到空字符，停止计数，复杂度为O(N)
SDS获取 len 属性值即可，复杂度为 O(1) 。所以 STRLEN 的复杂度也为 O(1)

API安全，杜绝缓冲区溢出

C字符串在进行字符串拼接 strcat 时，需要预先分配足够的空间，来容纳拼接的字符串，否则会造成缓冲区溢出的问题，比如临近的空间有另外一个字符串。
SDS 在进行字符串拼接时，会先检查 len 的长度是否足够，如果不够，会先扩展 len，再进行字符串拼接。

减少修改字符串长度时所需的内存重分配次数

空间预分配
当对 SDS 进行空间扩展时，计算扩展之后的 len值如果小于 1mb，那么久会分配扩展之后的 len 值给 free 属性作为，为下次扩展时预分配的未使用空间，如果下次扩展所需字节空间小于 free 的值，那么就无需进行空间扩展，直接使用未使用空间。
惰性空间释放
同样，默认情况下，对 SDS 进行缩减时，缩减的空间不会立刻被这个SDS释放，而是分配给 free ，如果之后再进行扩展时，有可能会用到。
Redis 的 SDS 类型通过这两种空间分配策略，减少了字符串增长缩减时所需的内存重分配操作，为内存分配提供了优化。

二进制安全

Redis 通过 len属性的值来判断是否结束，而不是C字符串的 \0 作为结束。

兼容部分C字符串函数

上面已经提到SDS在末尾添加了 \0 ，这样可以兼容部分C字符串函数，可以直接使用 <string.h> 函数库。

Redis 字符串源码原理

1、Redis的字符串结构被设计成一个[SDS]结构

字符串实际内容是被存放在一个数组中，如下表

struct SDS<T> {
  T capacity; // 数组容量
  T len; // 数组实际长度
  byte flags; // 特殊标识位，不理睬它
  byte[] content; // 数组内容
}

当字符串的大小超出当前分配的capacity大小时，数组将扩容，分配更大的数组，将旧的数组拷贝到新数组中，再将增加到字符串添加进去。

2、embstr 与raw

1）Redis的字符串的储存方式分为2种，当长度特别短时，使用emb形式存储，当长度超出44时，使用raw存储。

2）俩者的区别：

Redis的对象头结构如下：

struct RedisObject {
    int4 type; // 4bits
    int4 encoding; // 4bits
    int24 lru; // 24bits
    int32 refcount; // 4bytes
    void *ptr; // 8bytes，64-bit system
} robj;

解析：不同的对象具有不同类型的type；同一个类型的type会有不同的存储形式encoding；使用lru来记录对象的LRU信息，每个对象都有一个引用计数，当计数为0的时候，对象就会被销毁，内存被回收；pre指针用来指示对象内容具体存储位置；上诉对象有结构内容加起来需要占用16字节的存储空间。

SDS对象头大小：实际内容的大小(capacity) + 3byte，3是用来存储capacity + len + flags内容加起来的长度，而content数组初始值是16，所有SDS最小的大小是19 (16+3 )；

存储形式如下图：

解析：embstr将RedisObject对象头和SDS对象连续存在一起，使用malloc方法一次分配；而raw需要俩次malloc，俩个对象头砸死内存地址上一般是不连续的。embstr最大能容纳的字符串长度是44字节

3、扩容策略

字符串在长度小于1M之前，扩容空间采用加倍策略，即保留100%冗余空间。当长度大于1M，没次扩容只会多分配1M的冗余空间。

频道导航