【每天来点python】字符串与编码

2019年5月18日 166次阅读来源: 王诗翔

编码讲的非常好，引用一下：

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。
用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件：
0.png

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：
0-1.png

所以你看到很多网页的源码上会有类似<meta charset=”UTF-8″ />的信息，表示该网页正是用的UTF-8编码。

Python字符串

在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言。
由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。
Python对bytes类型的数据用带b前缀的单引号或双引号表示。
反过来，如果我们从网络或磁盘上读取了字节流，那么读到的数据就是bytes。要把bytes变为str，就需要用decode()方法。
第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释；
第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。
申明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的，必须并且要确保文本编辑器正在使用UTF-8 without BOM编码。
如果.py文件本身使用UTF-8编码，并且也申明了# –– coding: utf-8 –-，打开命令提示符测试就可以正常显示中文。

练习：
小明的成绩从去年的72分提升到了今年的85分，请计算小明成绩提升的百分点，并用字符串格式化显示出’xx.x%’，只保留小数点后1位：

# _*_ coding: utf-8 _*_

s1 = 72
s2 = 85

r = (s2 - s1)/s1 * 100
print('小明成绩提升了%%%.1f ' % r)

小明成绩提升了%18.1

    原文作者：王诗翔
    原文地址: https://www.jianshu.com/p/6ca1e0e834be
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。