Go语言中的Base64编码原理介绍以及使用

时间：2022-03-10 20:57:44|栏目：Golang|点击：次

前言

在网络中传递参数时，我们经常会对参数进行Base64编码，那么Go 语言中如何进行Base64编码呢？Base64编码的原理是怎样的呢？通过这篇文章一起来了解下吧！

Go Base64编码

标准Base64编码

// 标准Base64编码
    src := "hello world"
    res := base64.StdEncoding.EncodeToString([]byte(src))
    fmt.Println(res) // aGVsbG8gd29ybGQ=

    // 标准Base64解码
    s, err := base64.StdEncoding.DecodeString(res)
    fmt.Println(string(s), err) // hello world <nil>

Base64 URL 编码

标准Base64编码后会有 ‘+‘号，在HTTP URL传输时，'+‘号会被解析成空格，这样服务端接收到的数据和传输的数据就不一致。因此衍生出了Base64 URL编码，这种编码会把’+‘变为’-'，便于在URL中传输。

因此如果想要将编码后的数据放在 HTTP URL中传输，应该使用该编码方式。

// Base64 URL 编码
	src := "信息"
	res := base64.URLEncoding.EncodeToString([]byte(src))
	fmt.Println(res) // 5L-h5oGv

	// Base64 URL 解码
	s, err := base64.URLEncoding.DecodeString(res)
	fmt.Println(string(s), err) // 信息 <nil>

什么是Base64编码

Base64是网络上最常见的用于传输8Bit字节码的编码方式之一，是一种基于64个可打印字符来表示二进制数据的方法。Base64编码是从二进制到字符的过程，可用于在HTTP环境下传递较长的标识信息。采用Base64编码具有不可读性，需要解码后才能阅读。—百度百科

通过百度百科的介绍，我们可以获得如下信息：

Base64是一种编码方式，将二进制编码为字符
Base64编码后的字符范围为64个可打印字符
编码后的结果具有不可读性，需要解码：即Base64不是加密方法，而是编码方式，是从一种语言翻译为另一种语言，当然也可以翻译回去

为什么需要Base64编码

我们都知道计算机的世界，是由0和1组成的，那么0和1的组合如何表示现实语言呢，这就出现了ASCII 码。ASCII 是由美国设计的，一共128个字符，其中规定了第0～31及127(共33个)是控制字符或通信专用字符，32～126(共95个)是可打印字符。比如10（0000 1001）表示换行，65（0100 0001）表示大写字母A。

最初的许多协议都是基于 ASCII 设计的，只能传输可打印字符。比如发邮件时使用的 SMTP（简单邮件传输协议），最初只能传输纯文本，对图片、语音等二进制文件的支持并不是太好。

那么我们想传输这些包含不可打印字符的数据怎么办，一种方式就是设计一种编码方式，将不可打印字符转为可打印字符，这样这些数据就可以传输了，收到这些数据后，再解码回来，得到原始数据。Base64就是为了解决这个问题的。

对于现在的协议来说，都针对二进制文件做了处理，但我们无法保证文件在网络传输过程中不出现问题。当包含不可打印字符的文件在网络中传输时，往往要经过多个路由设备，由于不同的设备（特指老的路由设备）对字节流的处理方式有一些不同，这样那些不可打印字节就有可能被错误处理，不利于数据传输的。所以就先把数据先做一个编码，统统变成可见字节，确保数据可靠传输。

Base64编码原理

Base64之所以叫做Base64，是因为它是基于64个可打印字符设计的，这64个字符是 ASCII 编码中可打印字符的子集，包含26个字母的大小写、10个阿拉伯数字、'+‘号和 ‘/‘号。（其实还有一个 ‘=’ 号用于后缀）

编码步骤

由于一共有 64 个字符，那么使用 6 个比特位就足够表示了(2的6次方=64)，而 ASCII码使用 8 个比特位表示一个字符，6 和 8 的最小公倍数为 24，3个 ASCII码字符可以编码为 4 个 Base64 字符。因此Base64的编码过程如下：

将原始数据每三个字节分为一组，一共24个比特位
将24个比特位分为4组，每组6个比特位
计算每组的十进制值，根据编码对照表，得到可打印字符串

以维基百科上举的例子做个演示：

给定单词 ‘Man’，一共三个字节
根据ASCII编码，得到24个比特位
6个一组，分为4组
计算每组的十进制值分别为 19、22、5、46，对照Base64编码表，得到可打印字符串为 ‘TWFu’

需要注意的是，使用Base64编码后，3个字节会转为4个字节，编码后的需要传输的数据比编码前多了 1/3。

位数不足情况

位数不足会有两种情况：两个字节或者一个字节的数据。

如果是两个字节，也就是16个比特，需要补两个0，得到三个Base64编码字符，最后添加一个’=‘用于补充

如果是一个字节，也就是8个比特，需要补4个0，得到两个Base64编码字符，最后添加两个’=‘用于补充

Base64解码原理

解码就是编码的逆向操作：

去掉结尾的’=‘号
根据Base64编码表，找到每个字符对应的编码值
取每个编码值的后6位，形成二进制串
对上述二进制串，每8个构成一个字节，如果最后一组不够8个，一定全是0，丢弃掉
此时得到的就是原始数据的二进制编码，再根据编码方式（例如 ASCII ）等进行解码

例如对于上述 ‘Ma’ 的编码值 ‘TWE=’ 进行解码：

去掉’='，得到 ‘TWE’
‘T’:19，‘W’:22，‘E’:4
010011 010110 000100
01001101 01100001
M a

Base64标准编码变种

我们有时候会将Base64编码后的字符串，当前 HTTP URL 中的参数进行传递，但是标准的 Base64 并不适合直接放在URL里传输，因为对于 ‘+‘号，使用url encode时会被encode 为空格，比如编码后的值是 ‘ab+cd’，但是使用url encode 后变成了 ‘ab cd’，那么对方接收到的也是’ab cd’，此时再解码肯定失败了。

为解决此问题，衍生出一种用于URL的改进Base64编码，它不仅在末尾去掉填充的’=‘号，并将标准Base64中的“+”和“/”分别改成了“-”和“_”。