数据清洗
要遍历当前文件夹下从1.x1sx
到8.x1sx
的所有文件,
提取“句子”列,‘标注’列和‘上下文情境’这三列
按顺序把excel中的这三列拼接在一起。
合并输出成一个xlsx文件。
import os
import pandas as pd
# 获取当前脚本所在的目录
current_directory = os.path.dirname(__file__)
# 切换到脚本所在的目录
os.chdir(current_directory)
# 定义文件名列表
file_names = [f"{i}.xlsx" for i in range(1, 5)]
# 用于存储所有文件的数据
all_data = []
existing_files = []
# 遍历所有文件并提取所需的三列
for file_name in file_names:
if os.path.exists(file_name): # 确保文件存在
df = pd.read_excel(file_name)
# 检查是否包含“句子”,“标注”和“上下文情境”列
if all(col in df.columns for col in ['句子', '标注', '上下文情境']):
required_columns = df[['句子&
本站资源均来自互联网,仅供研究学习,禁止违法使用和商用,产生法律纠纷本站概不负责!如果侵犯了您的权益请与我们联系!
转载请注明出处: 免费源码网-免费的源码资源网站 » AI自动采集教学行为——用AI来做机器学习部分和深度学习部分(含torch和cuda)包含机器学习模型和bert模型的使用
发表评论 取消回复