用Python来自动化处理文件

来源：千锋教育

发布人：xqq

时间： 2023-11-06 03:05:43

当代码投入生产时，你需要去组织代码的文件。读写、创建和运行许多代码文件是件非常耗时的事。本文将展示如何自动化这些繁琐的操作：

·遍历一个目录中的文件

·创建尚未建立的嵌套文件

·使用bashfor循环来运行一个有多个输入端的文件

在处理数据科学项目时，这些技巧为笔者节省了大量的时间。希望对你也有用!

遍历一个目录中的文件

如果有如下多个数据需要读取和处理：

├──data

│├──data1.csv

│├──data2.csv

│└──data3.csv

└──main.py

可以手动地一次读取一个文件：

importpandasaspddefprocess_data(df):

passdf=pd.read_csv(data1.csv)

process_data(df)df2=pd.read_csv(data2.csv)

process_data(df2)df3=pd.read_csv(data3.csv)

process_data(df3)

这是可行的，但是当有超过三个数据时，效率就会变得很低。如果上述脚本中唯一改变的是数据，为什么不用for循环来访问每个数据呢?

下面的脚本允许我们遍历指定目录中的文件：

importos

importpandasaspd

defloop_directory(directory:str):

'''Loopfilesinthedirectory'''

forfilenameinos.listdir(directory):

iffilename.endswith(".csv"):

file_directory=os.path.join(directory,filename)

print(file_directory)

pd.read_csv(file_directory)

if__name__=='__main__':

loop_directory('data/')

data/data3.csv

data/data2.csv

data/data1.csv

对上面脚本的解释如下：

·forfilenameinos.listdir(directory):在一个指定的目录中遍历文件。

·iffilename.endswith(".csv"):运行(访问?)以‘.csv’结尾的文件。

·file_directory=os.path.join(directory,filename):连接父目录('data')和该目录中的文件。

现在就可以在‘data’目录中访问所有的文件啦!

如果不存在，就创建嵌套文件

有时你可能想要通过创建嵌套文件来管理代码或模型，在之后更容易地寻找。比如，可以运用‘model1’来明确规定一个有着具体特征的程序。当使用model1时，你可能想要尝试运用不同种类的机器学习模型来训练数据(‘model1/XGBoost’)。

在使用各个机器学习模型时，我们甚至想要去保存不同样式的模型，因为它们所运用的超参数存在不同。因此，模型目录就像下面的示例一样复杂：

model

├──model1

│├──NaiveBayes

│└──XGBoost

│├──version_1

│└──version_2

└──model2

├──NaiveBayes

└──XGBoost

├──version_1

└──version_2

对每个所创的模型手动地建立嵌套文件可能需要花费很长的时间。有没有能够自动化这个进程的方法?有，通过使用os.makedirs(datapath)。

defcreate_path_if_not_exists(datapath):

'''Createthenewfileifnotexistsandsavethedata'''

ifnotos.path.exists(datapath):

os.makedirs(datapath)

if__name__=='__main__':

create_path_if_not_exists('model/model1/XGBoost/version_1')

运行上面的文件，可以看到嵌套文件‘model/model2/XGBoost/version_2’自动建成了。现在便可以将模型或者数据储存到新的目录里了!

importjoblib

importos

defcreate_path_if_not_exists(datapath):

'''Createthenewfileifnotexistsandsavethedata'''

ifnotos.path.exists(datapath):

os.makedirs(datapath)

if__name__=='__main__':

#Createdirectory

model_path='model/model2/XGBoost/version_2'

create_path_if_not_exists(model_path)

#Savefile

joblib.dump(model,model_path)

Bashfor循环：用不同参数运行一个文件

如果要运行一个具有不同参数的文件怎么办呢?比如，可能要用同一个脚本去预测使用不同模型的数据。

importjoblib

#df=...

model_path='model/model1/XGBoost/version_1'

model=joblib.load(model_path)

model.predict(df)

如果一个脚本需要长时间来运行且有着多个要运行的模型，用脚本一个一个地运行会是非常耗时。有什么办法能让电脑独立自动地用一条命令行运行第1，2，3...，10个模型吗?

有的，可以使用bashfor循环。首先，使用sys.argv来解析命令行参数。如果想要在命令行上重写配置文件可以使用类如hydra的工具。

importsys

importjoblib

#df=...

model_type=sys.argv[1]

model_version=sys.argv[2]

model_path=f'''model/model1/{model_type}/version_{model_version}'''

print('Loadingmodelfrom',model_path,'fortraining')

model=joblib.load(model_path)

mode.predict(df)

>>>pythontrain.pyXGBoost1

Loadingmodelfrommodel/model1/XGBoost/version_1fortraining

脚本已经被指令为使用模具第一版的XGBoost来预测命令行上的数据。现在便能在不同版本的模具中使用bashfor循环。如果能用Python使用for循环，也可以在如下的终端上达成上述的目标。

$forversionin234

>do

>pythontrain.pyXGBoost$version

>done

敲击Enter来分隔各行，输出：

Loadingmodelfrommodel/model1/XGBoost/version_1fortraining

Loadingmodelfrommodel/model1/XGBoost/version_2fortraining

Loadingmodelfrommodel/model1/XGBoost/version_3fortraining

Loadingmodelfrommodel/model1/XGBoost/version_4fortraining

现在便可以让脚本使用不同的模具来运行啦!

恭喜!现在你已经学会如何一次自动地读取和创造多个文件，如何用不同的参数运行一个文档，过去丢在琐碎工作中的时间可以利用起来做更重要的任务啦。

以上内容为大家介绍了用Python来自动化处理文件，希望对大家有所帮助，如果想要了解更多Python相关知识，请关注 IT培训机构:千锋教育。http://www.mobiletrain.org/

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

使用 Python 函数进行模块化

Python 里面的一些小技巧

猜你喜欢LIKE

陆神

原去哪儿网高级架构师

北京大学计算机系毕业

HTML5学科教研总监

千锋威哥

OCP认证专家

15年以上开发经验

Java学科首席技术官

宋宋

原阿里后端架构师

北京邮电大学硕士

Python学科首席技术官

卢老师

北京大学博士后

北京科技大学博士

人工智能学科总监

索尔

原阿里后端架构师

浙工大计算机系毕业

Java学科高级讲师

jackfrued

曾任职华为成都研究所

计算机应用技术博士

Python学科教学主管

快速通道 更多>>

课程介绍
点击获取大纲
就业前景
查看就业薪资
学习费用
了解课程价格
优惠活动
领取优惠券
学习资源
领3000G教程
师资团队
了解师资团队
实战项目
获取项目源码
开班地区
查看来校路线

网友热搜更多>>

IT行业年龄有限制吗女生学IT Java薪资待遇零基础Web培训 Python就业如何学UI设计大数据学习路线 java培训学费软件测试培训转行学Linux 网络安全基础知识网络营销培训 unity培训 30岁还能学it吗大数据技术学什么 python培训费