数据清洗

要遍历当前文件夹下从1.x1sx8.x1sx的所有文件,
提取“句子”列,‘标注’列和‘上下文情境’这三列

按顺序把excel中的这三列拼接在一起。
合并输出成一个xlsx文件。

import os
import pandas as pd

# 获取当前脚本所在的目录
current_directory = os.path.dirname(__file__)

# 切换到脚本所在的目录
os.chdir(current_directory)

# 定义文件名列表
file_names = [f"{i}.xlsx" for i in range(1, 5)]

# 用于存储所有文件的数据
all_data = []
existing_files = []

# 遍历所有文件并提取所需的三列
for file_name in file_names:
    if os.path.exists(file_name):  # 确保文件存在
        df = pd.read_excel(file_name)

        # 检查是否包含“句子”,“标注”和“上下文情境”列
        if all(col in df.columns for col in ['句子', '标注', '上下文情境']):
            required_columns = df[['句子&

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部