Python RawString与open文件的newline换行符遇坑解决

背景

一次工作中，我需要完成某个文件的字符串替换。

需求是这样的：文件A有个占位符，需要利用Python3，把占位符替换成文件B的内容。文件都不大，可以一次性读到内存处理。

我想，这不是简单的open>read replace write就搞定了嘛？

结果，还真有点麻烦！

思路

全量读取文件A，保存到变量templace

全量读取文件B，保存到变量text

利用python的re.sub实现正则替换，保存到新变量result

把变量result内容写入文件A

with open('A', encoding='utf8') as f:
  template = f.read()
with open('B', encoding='utf8') as f:
  text = f.read()
result = re.sub(r'占位标识符', text, template, 1)
with open('A', 'w', encoding='utf8') as f:
  f.write(result)

遇到的问题

文件B内有换行符，也有字符串\n，按上文的方式处理后，所有的字符串\n都变成了换行符！

举个例子，template是我是：{}（其中{}就是占位符），text是下面的文本：

哈哈
哈哈\n哈哈

替换后，如下图所示：

可以看到，当我打印re.sub结果时，所有的\n都变成了换行符，字符串\n消失了！

这的确令人烦躁，本来五分钟可以搞定，结果要花多余的时间处理这个问题。如果你学会了本文，以后都不用再去费脑筋了～

思考过程

一开始遇到这个问题，是在写入文件后发现的，所以并没定位的这么准确，当时跟换行符相关的，我怀疑了以下方面：

字符串定义没有使用>r'xxx'这种方式）。

正则替换出了问题。

写入文件时，newline参数导致。

如果我们能把这3个问题全都弄清楚，以后定位就非常快了！

Raw>
Python中，如果字符串常量的定义前加了个`r`，就表示 Raw String 原始字符串。

Raw String 特点在于，字符串常量里的`\`将不具有转义作用，它仅仅代表它自己。

例如，你定义个普通字符串`"\n"`，这个字符串长度其实是1，它只包含了1个换行符，对应的 ASCII 是10。

如果你定义了原始字符串`"\n"`，这个字符串长度就是2，它包含了字符`\`和字符`n`。

如果字符串没转义字符，那么>
转义字符有这些：

也就是说`r'\haha'`跟`'\haha'`是完全一致的，因为`\h`不是转义字符，所以这种情况下，没必要加`r`。

误区：注意单个字符的引号问题

有一个令人疑惑的点：理论上讲，r'\'应该就是'\\'，但是当你使用r'\'时，Python会报错。

这是因为Python在编译时，读取字符串时，如果字符串以单引号开头，遇到\'后，不论你是不是Raw>'当作结束符。估计是一个历史遗留问题。我们只能接受现实。

如何证明呢？你给字符后面加个空格，发现它们是相等的：r'\ '和'\\ '。但是单独的字符r'\'就报错了。

但是这种情况只有r'\'或r"\"才会发生，如果字符串长度为2，是没问题的，例如r"\\"可以被合法定义。

启发

定义字符串时，如果你是这么定义："哈哈\n哈哈"，那么这个字符串长度是5，包含了1个换行符。

如果你是这么定义：r"哈哈\n哈哈"，那么这个字符串长度是6，不包含换行符，包含字符\和n。

同样，当你写入文件时，如果是f.write('\n')，就表明写入了换行符，但如果是f.write(r'\n')，就表明写入了字符串"\n"。

正则替换的问题

这是导致本文问题的根本原因。使用re.sub时，所有的字符串r"\n"都被当作了换行符。

怎么办呢？

只要我们替换前，把原始文件对应的字符串的r"\n"都改为r"\\n"，手动多加了一次转义符，那么re.sub时，就不会把r"\n"当作一个整体改成换行符了，反而会把r"\\"当作一个整体，替换为字符\。这样r"\n"字符串就保留下来了！当然，其它转义字符，也统统保留下来了。这就是正确的解法了。

open>

with open(filename, 'r', newline=None) as f:
  f.read()

这个主要是因为不同操作系统的换行符不同，所以有了这个参数。Windows 是 CRLF 即 \r\n，Unix 是 LF 即\n，旧版 Macintosh 是 CR 即\r。

通常情况下，我们不需要加这个参数，Python 会自动为我们做这些事情：

读取文件时，自动把文本中的各种换行符统一转换为"\n"。

写入文件时，根据当前的操作系统，自动把"\n"转换为对应的换行符，通过os.linesep可以查看当前操作系统换行符。

当然，你也可以主动设置 newline 参数:

读取文件时，如果 newline 是空字符串''，则Python不会做任何自动转换，读到什么就是什么。

读取文件时，如果 newline 是非空字符串，则Python会把换行符转化为这个非空字符串，例如你可以指定为'\r'或'\r\n'或其它。

写入文件时，如果 newline 是空字符串''，则Python不会做任何自动转换，现在换行符是什么，就写入什么。

写入文件时，如果 newline 是非空字符串，则Python会把\n转化为这个非空字符串，例如你可以指定为'\r'或'\r\n'或其它。

注意，newline 参数只对文本文件有效，如果是二进制读写，newline 是无用的。

其实，大部分时候我们无需关注这个 newline 参数。

以上就是Python RawString与open文件的newline换行符遇坑解决的详细内容，更多关于Python RawString open文件 newline换行符的资料请关注易采站长站其它相关文章！

Python RawString与open文件的newline换行符遇坑解决

目录

背景

思路

遇到的问题

思考过程

如果字符串没转义字符，那么>
转义字符有这些：

也就是说`r'\haha'`跟`'\haha'`是完全一致的，因为`\h`不是转义字符，所以这种情况下，没必要加`r`。

误区：注意单个字符的引号问题

启发

正则替换的问题

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python RawString与open文件的newline换行符遇坑解决

目录

背景

思路

遇到的问题

思考过程

如果字符串没转义字符，那么> 转义字符有这些： 也就是说r'\haha'跟'\haha'是完全一致的，因为\h不是转义字符，所以这种情况下，没必要加r。

误区：注意单个字符的引号问题

启发

正则替换的问题

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型 附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型 附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

如果字符串没转义字符，那么>
转义字符有这些：

也就是说`r'\haha'`跟`'\haha'`是完全一致的，因为`\h`不是转义字符，所以这种情况下，没必要加`r`。

使用Pytorch构建第一个神经网络模型附案例实战

使用Pytorch构建第一个神经网络模型附案例实战