Python3字符串前缀u、b、r

图片 2

1.无前缀 & u前缀

计算机存储的几个概念

  字符串默认创建即以Unicode编码存储,可以存储中文。

想要彻底搞清楚编码问题,我们必须要先搞清楚计算机是怎么存储数据的,这就涉及到了计算机基础的几个概念了,开篇我们就先来捋捋这几个容易混淆的概念。

  string = ‘a’  等效于  string = u’a’

bit

  Unicode中通常每个字符由2个字节表示

二进制位,
是计算机内部数据储存的最小单位,11010100是一个8位二进制数。一个二进制位只可以表示0和1两种状态(21);两个二进制位可以表示00、01、10、11四种(22)状态;三位二进制数可表示八种状态(2^3)……

  u’a’ 即    u’\u0061′   实际内存中为  [0000 0000] [0110 0001]

Byte

 

字节,是计算机中数据处理的基本单位,计算机中以字节为单位存储和解释信息,规定一个字节由八个二进制位构成,即1个字节等于8个比特(1Byte=8bit)。八位二进制数最小为00000000,最大为11111111;通常1个字节可以存入一个ASCII码,2个字节可以存放一个汉字国标码。

2.b前缀

   字符串存储为Ascll码,无法存储中文。

在计算机中,一串数码作为一个整体来处理或运算的,称为一个计算机字,简称宇。字通常分为若干个字节(每个字节一般是8位)。在存储器中,通常每个单元存储一个字,因此每个字都是可以寻址的。字的长度用位数来表示。在计算机的运算器、控制器中,通常都是以字为单位进行传送的。

   每个字符由1个字节表示(8位) 

字长

   b’a’ 即 b’\x61′  实际内存中为 [0110 0001] 

字长:电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。所以能处理字长为8位数据的CPU通常就叫8位的CPU。同理32位的CPU就能在单位时间内处理字长为32位的二进制数据。

 

字节和字长的区别:由于常用的英文字符用8位二进制就可以表示,所以通常就将8位称为一个字节。字长的长度是不固定的,对于不同的CPU、字长的长度也不一样。8位的CPU一次只能处理一个字节,而32位的CPU一次就能处理4个字节,同理字长为64位的CPU一次可以处理8个字节。

3.r前缀

常见的编码

 与上述两种不是一样的东西了。

ASCII: 1个字节,只编码英文字母和符号

 r前缀就相当于三引号,主要解决的是 转义字符,特殊字符
的问题,其中所有字符均视为普通字符。

gb2312: 2个字节,增加了中文汉字和符号

 

Unicode: 把所有语言都统一到一套编码里把所有语言都统一到一套编码里,
一般是2个字节,生僻字4个字节

 图片 1结果为 图片 2

utf-8:
可变长编码,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:

 

在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码,这样可以节省很多存储空间。

Python编码

注:这里讨论的是python2.7的情况

两个函数

在python中,str和unicode都是basestring的子类,basestring有以下两个方法:

encode(): 将unicode字符串转换为其他编码字符串,参数为转换后编码