扫描打开手机站
随时逛,及时抢!
当前位置:首页>综合资讯>

Python编程过程中要注意掌握哪几类文件编码?

Python编程过程中要注意掌握哪几类文件编码?

时间:2023-07-05 18:02:04 来源:网络整理 作者:bianji123

编码过程是什么意思__编码程序有哪些

无论学习哪种计算机语言,都会涉及到文件操作,也难免要处理文件编码,遇到中文乱码问题。 我将分享学习过程中遇到的5种文件编码和乱码的一些情况。

编程过程中需要注意哪些类型的文件编码工具/原材料

3.7

win10电脑

编程过程中应注意哪些类型的文件编码操作方法

1

首先看一个案例来了解什么是文件编码及其乱码:

# 写入文件出现中文乱码问题

f = open(r"D:\test.txt","w")s = "job talk\\n" f.write(s) # 将字符串 s 写入文件 f .close() # 关闭文件

Python编程过程中要注意掌握哪几类文件编码?

2

开发流程及各代码之间的关系:

我们中国程序员在操作文本文件时,经常操作中文,经常会遇到类似的乱码问题。 为了让大家能够解决中文乱码的问题,首先要了解各种编码之间的关系。

1、编码也是一个逐渐演变和完善的过程;百思特网

2、图中从上到下,下面的代码始终与上面的代码兼容;

3.中国人所做的一切都可以找到自己的解决方案,从电脑打字的输入法到编码规则在这里。

3

ASCII 编码:

ASCII的全称是Code for,译为“美国信息交换标准代码”。

它是世界上最早、最常见的单字节编码系统。 它主要用于显示现代英语和其他西欧语言。 它不能代表几千个中文单词。

ASCII码由7位表示,只能表示128个字符。 由于ASCII编码的最高位始终为0,因此只定义了128个字符,用7bit就可以完全编码。

这里我列出了一个百思特网搜索平台检索到的 ASCII 标准表。

看图片:

4

-1编码:

ISO-8859-1,也称为 Latin-1,是一个 8 位单字节字符集。 它还使用 ASCII 的最高位,并且与 ASCII 兼容。 新的空间是128,但是还没有完全用完。 。

在ASCII码之上,添加了西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文本符号,并且向后兼容ASCII码。

看图片:

5

汉字编码:

全称是信息交换用汉字编码字符集。 它于1980年由中国发布,主要用于计算机系统中的汉字处理。 主要包含汉字6763百思特网个、符号682个。

它涵盖了汉字的大部分使用率,但无法处理像古文这样的特殊生僻字,所以后来出现了BK、BK这样的编码。

与-1完全兼容。

GBK的全称是Code,是汉字内码的扩展规范,于1995年制定,主要是扩展,在其基础上增加了更多的汉字。 共收录汉字21003个

最新的内码字集于2000年发布,2001年强制实施,包含了我国大部分少数民族的语言文字,共收录汉字7万多个,主要采用单字节、双字节、四字节字符。编码。 它向后兼容GBK。 虽然在我国是强制性标准,但在实际生产中很少使用,用的最多的反而是GBK和

Python编程过程中要注意掌握哪几类文件编码?

6

:

编码设计固定两个字节,所有字符都用16位表示(2^16=65536),包括之前只占用8位的英文字符,所以会造成空间的浪费。 均未得到推广应用。

完全重新设计,不与-1兼容,也不与任何其他编码兼容。

7

UTF-8:

对于英文字母,也需要两个字节来表示。 因此传输和存储不方便。 因此,UTF编码就产生了,UTF-8的全称是(8位n)。

UTF编码兼容-1编码,也可以用来表示所有语言的字符。 但UTF编码是一种不定长编码,每个字符的长度范围为1-4个字节。 其中,英文字母用一个字节表示,而汉字则用三个字节表示。

总结一下编程过程中应该注意哪些类型的文件编码

中文乱码问题的解决办法:操作系统默认编码为GBK,Linux操作系统默认编码为UTF-8。 当我们使用open()时,调用的是操作系统打开的文件,默认编码是GBK。 该案例第一步是在操作系统下运行,导致出现中文乱码的问题。 从代码入手,解决办法很简单,就是指定文件的编码方式为UTF-8。 f = open(r"D:\test.txt","w","utf-8")

1、只要注意指定的编码方式就可以避免中文乱码的问题; 2. 共有五种编码方式。

编程过程中需要注意哪些类型的文件编码?

本文地址:https://www.best73.com/zdmzt/273019.html
特别声明:以上内容来源于编辑整理发布,如有不妥之处,请与我方联系删除处理。
热门资讯
查看更多