python批量翻译excel表格中的英文

需求背景

女朋友的论文需要爬取YouTube视频热评，但爬下来的都是外文。

主要设计

读取一个表格文件，获取需要翻译的文本

使用百度翻译> 将翻译结果保存到原表格中，然后提取需要的列组成一个新的 DataFrame 处理多个表格文件，将它们的翻译结果分别保存 使用线程池加速翻译过程，可以同时翻译多个表格 显示进度条
分析

目标文件为xlsx格式，可以借助pandas进行读取文件和生成文件的操作。在这里我的源文件有若干列，其中第2列评论内容为我的目标列。在这里我用的是百度翻译api接口。也可以googletrans、translate，这些库可以在本地使用，不需要申请API密钥，但是翻译质量和速度可能不如云服务。由于我每个表格有2000行数据，总共有10个表格，一个个来的话不仅麻烦效率还低。我需要知道任务的进度，不想一直等下去
具体实现

表格操作

def TranslateTable(sInputFilename, sOutputFilename): # 读取表格A并选择需要翻译的列 df_a = pd.read_excel(sInputFilename) # 获取df对象 df_a = df_a.iloc[:, [1, 2]] # iloc和loc很像，i=index， # 翻译英文列 df_a['translation'] = df_a.iloc[:, 0].apply(Translate) # 创建表格B并保存 df_b = pd.DataFrame({ '原文': df_a.iloc[:, 0], '译文': df_a.iloc[:, 2] }) df_b.to_excel(sOutputFilename, index=False)

请求百度翻译api

def Translate(sText, from_lang='en', to_lang='zh'): appid = 'xxxxxx' secret_key = 'xxxxxx' url = 'https://fanyi-api.baidu.com/api/trans/vip/translate' salt = random.randint(32768, 65536) sign = hashlib.md5((appid + sText + str(salt) + secret_key).encode()).hexdigest() params = { 'q': sText, 'from': from_lang, 'to': to_lang, 'appid': appid, 'salt': salt, 'sign': sign } response = requests.get(url, params=params) result = json.loads(response.content.decode()) if result.get('error_code') is not None: return None return result['trans_result'][0]['dst']

多线程

使用concurrent.futures库中的>
创建一个 ThreadPoolExecutor对象。在循环中遍历每个表格A，并使用 submit方法向线程池提交任务。 submit方法将表格A的文件名和表格B的文件名作为参数传递给 translate_column函数，该函数将在单独的线程中执行。
ThreadPoolExecutor会自动管理线程池的大小，并在有空闲线程时分配新任务。这种方式可以利用多个CPU核心来并行处理多个表格，提高处理速度。

def TranslateTables(sInputFolder, sOutputFolder): sInputFilenames = [os.path.join(sInputFolder, f) for f in os.listdir(sInputFolder) if f.endswith('.xlsx')] with ThreadPoolExecutor() as executor: lstFutures = [] for sInputFilename in sInputFilenames: sFilename = os.path.splitext(os.path.basename(sInputFilename))[0] sOutputFilename = os.path.join(sOutputFolder, sFilename + '_翻译结果.xlsx') lstFutures.append(executor.submit(TranslateTable, sInputFilename, sOutputFilename)) for future in tqdm(as_completed(lstFutures), total=len(lstFutures)): pass

控制台显示进度

使用>
完整源码

# -*- coding: utf-8 -*- # time: 2022/2/17 03:06 # file: test.py # author: Shi Yasong """ 主要功能功能： 1、读取一个表格文件，获取需要翻译的文本。 2、使用百度翻译 API 进行翻译，获取翻译结果。 3、将翻译结果保存到原表格中，然后提取需要的列组成一个新的 DataFrame。 4、处理多个表格文件，将它们的翻译结果合并到一个 DataFrame 中，然后分别保存。 5、使用线程池加速翻译过程，可以同时翻译多个表格 6、使用 concurrent.futures.as_completed 函数显示进度条。 """ from concurrent.futures import ThreadPoolExecutor, as_completed from tqdm import tqdm # 进度条库，需要先安装 import pandas as pd import requests import json import os import hashlib import random def Translate(sText, from_lang='en', to_lang='zh'): appid = 'xxxx' secret_key = 'xxxxx' url = 'https://fanyi-api.baidu.com/api/trans/vip/translate' salt = random.randint(32768, 65536) sign = hashlib.md5((appid + sText + str(salt) + secret_key).encode()).hexdigest() params = { 'q': sText, 'from': from_lang, 'to': to_lang, 'appid': appid, 'salt': salt, 'sign': sign } response = requests.get(url, params=params) result = json.loads(response.content.decode()) if result.get('error_code') is not None: return None return result['trans_result'][0]['dst'] def TranslateTable(sInputFilename, sOutputFilename): # 读取表格A并选择需要翻译的列 df_a = pd.read_excel(sInputFilename) # 获取df对象 df_a = df_a.iloc[:, [1, 2]] # iloc和loc很像，i=index， # 翻译英文列 df_a['translation'] = df_a.iloc[:, 0].apply(Translate) # 创建表格B并保存 df_b = pd.DataFrame({ '原文': df_a.iloc[:, 0], '译文': df_a.iloc[:, 2] }) df_b.to_excel(sOutputFilename, index=False) def TranslateTables(sInputFolder, sOutputFolder): sInputFilenames = [os.path.join(sInputFolder, f) for f in os.listdir(sInputFolder) if f.endswith('.xlsx')] with ThreadPoolExecutor() as executor: lstFutures = [] for sInputFilename in sInputFilenames: sFilename = os.path.splitext(os.path.basename(sInputFilename))[0] sOutputFilename = os.path.join(sOutputFolder, sFilename + '_翻译结果.xlsx') lstFutures.append(executor.submit(TranslateTable, sInputFilename, sOutputFilename)) for future in tqdm(as_completed(lstFutures), total=len(lstFutures)): pass # 调用函数翻译多个表格 sInputFolder = r'C:\Users\lenovo\Desktop\english' # 修改为实际的表格文件夹路径 sOutputFolder = r'C:\Users\lenovo\Desktop\zh' # 修改为实际的表格文件夹路径 TranslateTables(sInputFolder, sOutputFolder)

到此这篇关于python批量翻译excel表格中的英文的文章就介绍到这了,更多相关python批量翻译内容请搜索易采站长站以前的文章或继续浏览下面的相关文章希望大家以后多多支持易采站长站！

python批量翻译excel表格中的英文

目录

需求背景

主要设计

分析

具体实现

表格操作

请求百度翻译api

多线程

控制台显示进度

完整源码

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

python批量翻译excel表格中的英文

目录

需求背景

主要设计

分析

具体实现

表格操作

请求百度翻译api

多线程

控制台显示进度

完整源码

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型 附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

Python ArcPy实现批量拼接长时间序列栅格图像

Python 中OS module的使用详解

Python Matplotlib基本用法详解

Python range() 函数用法详解

Python分割单词和转换命名法的实现

Python 中OS module的使用详解

使用Pytorch构建第一个神经网络模型 附案例实战

Python实现关键路径和七格图计算详解

python3中SQLMap安装教程

kali最新国内更新源sources

使用Pytorch构建第一个神经网络模型附案例实战

使用Pytorch构建第一个神经网络模型附案例实战