Excel表格数据处理脚本编写

Posted on 2025-07-15

这个错误是因为 pandas 无法直接写入 .xls 格式的 Excel 文件（旧版 Excel 97-2003 格式），而您的输入文件可能是 .xls 格式。

解决方案

改用 .xlsx 格式（推荐）
- .xlsx 是较新的 Excel 格式，兼容性更好。
- 修改代码中的输出文件名：
  1
  with pd.ExcelWriter('结果_副本20250715.xlsx') as writer: # 改为 .xlsx

安装 xlwt 引擎（如果必须用 .xls）

旧版 .xls 需要 xlwt 库：
1
pip install xlwt

然后修改代码：

1	with pd.ExcelWriter('结果_副本20250715.xls', engine='xlwt') as writer:

修正后的完整代码

import pandas as pd

# 读取 Excel 文件
file_path = '副本20250715.xls'
sheet1 = pd.read_excel(file_path, sheet_name='Sheet1')
export_data = pd.read_excel(file_path, sheet_name='导出数据')

# 获取 Sheet1 的 AF 列（第 32 列，索引 31）
sheet1_af_values = sheet1.iloc[:, 31]  # AF 列的值（25011989, 25012115 等）

# 创建一个新表用于存储匹配的数据
matched_data = pd.DataFrame()

# 在 Sheet1 中添加新列 "胃肠"，初始值为 "否"
sheet1['胃肠'] = '否'

# 遍历 Sheet1 的 AF 列
for index, af_value in enumerate(sheet1_af_values):
    # 在导出数据表的 "住院号" 列（H 列）中查找匹配
    matches = export_data[export_data['住院号'].astype(str) == str(af_value)]
    
    if not matches.empty:
        # 将匹配的数据添加到新表中
        matched_data = pd.concat([matched_data, matches])
        
        # 如果匹配的数据条数 ≥ 2，则将 "胃肠" 列设为 "是"
        if len(matches) >= 2:
            sheet1.at[index, '胃肠'] = '是'

# 保存结果到新 Excel 文件（使用 .xlsx 格式）
with pd.ExcelWriter('结果_副本20250715.xlsx') as writer:  # 改为 .xlsx
    sheet1.to_excel(writer, sheet_name='Sheet1', index=False)
    matched_data.to_excel(writer, sheet_name='匹配数据', index=False)

print("处理完成，结果已保存到 '结果_副本20250715.xlsx'")

可能的问题排查

如果仍然报错
- 检查输入文件 副本20250715.xls 是否损坏，尝试用 Excel 打开确认。
- 如果文件是 .xlsx 格式，但扩展名是 .xls，请重命名文件。
如果 住院号 匹配不到数据
- 可能是 住院号 和 AF 列 的值格式不同（如 25011989 vs 2401070064）。
- 可以打印 sheet1_af_values 和 export_data['住院号'] 检查：
  1
  2
  print("Sheet1 AF 列示例:", sheet1_af_values.head())
  print("导出数据住院号示例:", export_data['住院号'].head())

如果需要其他匹配方式

可以改用 患者姓名 + 检查时间 组合匹配：

matches = export_data[
    (export_data['姓名'] == sheet1.iloc[index, 1]) &  # 假设姓名在第2列
    (export_data['报告时间'] == sheet1.iloc[index, 4])  # 假设报告时间在第5列
]

请尝试运行修正后的代码，如果仍有问题，请提供更多信息（如示例数据的前几行），我会进一步优化！ 🚀

时间: 2025-07-15T23:04:13

👤 用户

这是一个表格文件，帮我写一个脚本，根据“sheet1“表中AF列中的每一个值在“导出数据”表中的住院号列中查询，如果存在，则把”导出数据“表格中的存在的这行完整数据导出到新表中，同时在sheet1表中AF列后新加一个列，名字就叫”胃肠“，统计计算如果存在匹配两条及以上的数据，则值为”是“，只存在一条值或没有则为”否“

时间: 2025-07-15T22:27:59

🤖 DeepSeek (deepseek-chat)

我将为您编写一个Python脚本来完成这个任务。这个脚本会使用pandas库来处理Excel表格数据。

import pandas as pd

# 读取Excel文件
file_path = '副本20250715.xls'
sheet1 = pd.read_excel(file_path, sheet_name='Sheet1')
export_data = pd.read_excel(file_path, sheet_name='导出数据')

# 创建一个新表用于存储匹配的数据
matched_data = pd.DataFrame()

# 在Sheet1中添加新列"胃肠"，初始值为"否"
sheet1['胃肠'] = '否'

# 遍历Sheet1中的AF列（住院号）
for index, row in sheet1.iterrows():
    hospital_id = row['AF']  # 假设AF列对应的是住院号
    
    # 在导出数据表中查找匹配的住院号
    matches = export_data[export_data['住院号'] == hospital_id]
    
    if not matches.empty:
        # 将匹配的数据添加到新表中
        matched_data = pd.concat([matched_data, matches])
        
        # 如果匹配的数据条数≥2，则将"胃肠"列设为"是"
        if len(matches) >= 2:
            sheet1.at[index, '胃肠'] = '是'

# 保存结果到新Excel文件
with pd.ExcelWriter('结果_副本20250715.xls') as writer:
    sheet1.to_excel(writer, sheet_name='Sheet1', index=False)
    matched_data.to_excel(writer, sheet_name='匹配数据', index=False)

print("处理完成，结果已保存到'结果_副本20250715.xls'")

脚本说明：

读取数据：脚本会读取原始Excel文件中的”Sheet1”和”导出数据”两个工作表。
匹配处理：
- 对于”Sheet1”中AF列的每个住院号，在”导出数据”表中查找匹配的记录
- 将所有匹配的记录保存到新表”匹配数据”中
- 在”Sheet1”中添加新列”胃肠”，如果匹配到2条及以上记录则设为”是”，否则设为”否”
输出结果：将处理后的数据保存到新文件”结果_副本20250715.xls”中

注意事项：

请确保已安装pandas和openpyxl库（pip install pandas openpyxl）
如果列名不是”住院号”或AF列不是住院号，请相应调整代码中的列名
脚本假设AF列包含的是住院号，如果不是，请修改为正确的列名

如果您需要任何调整或有其他需求，请告诉我。

时间: 2025-07-15T22:27:59

👤 用户

Traceback (most recent call last):
File “C:\Users\Notebook\Desktop\pyt.py”, line 16, in
hospital_id = row[‘AF’]
~~~^^^^^^
File “C:\Users\Notebook\AppData\Local\Programs\Python\Python313\Lib\site-packages\pandas\core\series.py”, line 1121, in getitem
return self._get_value(key)
~~~~~~~~~~~~~~~^^^^^
File “C:\Users\Notebook\AppData\Local\Programs\Python\Python313\Lib\site-packages\pandas\core\series.py”, line 1237, in _get_value
loc = self.index.get_loc(label)
File “C:\Users\Notebook\AppData\Local\Programs\Python\Python313\Lib\site-packages\pandas\core\indexes\base.py”, line 3812, in get_loc
raise KeyError(key) from err
KeyError: ‘AF’

时间: 2025-07-15T22:31:25

🤖 DeepSeek (deepseek-chat)

这个错误表明在尝试访问 row['AF'] 时，AF 不是 Sheet1 中的有效列名。我们需要检查 Sheet1 的实际列名，并调整代码以匹配正确的列名。

根据您提供的表格数据，Sheet1 中 AF 列对应的列名实际上是 “重复收费”（从表格数据中可以看到 AF 列标题是”重复收费”），而住院号可能在另一列。让我们修改代码以正确匹配列名。

以下是修正后的脚本：

import pandas as pd

# 读取Excel文件
file_path = '副本20250715.xls'
sheet1 = pd.read_excel(file_path, sheet_name='Sheet1')
export_data = pd.read_excel(file_path, sheet_name='导出数据')

# 打印列名以检查
print("Sheet1 列名:", sheet1.columns.tolist())
print("导出数据 列名:", export_data.columns.tolist())

# 创建一个新表用于存储匹配的数据
matched_data = pd.DataFrame()

# 在Sheet1中添加新列"胃肠"，初始值为"否"
sheet1['胃肠'] = '否'

# 确定Sheet1中的住院号列（根据打印的列名调整）
# 从您提供的数据看，Sheet1中的住院号可能在"O"列（出院日期）或其他列
# 需要确认正确的列名，这里假设住院号在"E"列
hospital_id_col = 'E'  # 请根据实际列名调整

# 遍历Sheet1中的住院号列
for index, row in sheet1.iterrows():
    hospital_id = row[hospital_id_col]  # 获取住院号
    
    # 在导出数据表中查找匹配的住院号
    matches = export_data[export_data['住院号'] == str(hospital_id)]  # 转换为字符串比较
    
    if not matches.empty:
        # 将匹配的数据添加到新表中
        matched_data = pd.concat([matched_data, matches])
        
        # 如果匹配的数据条数≥2，则将"胃肠"列设为"是"
        if len(matches) >= 2:
            sheet1.at[index, '胃肠'] = '是'

# 保存结果到新Excel文件
with pd.ExcelWriter('结果_副本20250715.xls') as writer:
    sheet1.to_excel(writer, sheet_name='Sheet1', index=False)
    matched_data.to_excel(writer, sheet_name='匹配数据', index=False)

print("处理完成，结果已保存到'结果_副本20250715.xls'")

重要调整说明：

列名问题：原代码中假设 AF 列包含住院号，但根据您提供的数据，Sheet1 的列名是字母（A, B, C…）而不是具体的名称。需要确定哪个列包含住院号。
列名确认：脚本中添加了打印列名的代码，运行后会显示各表的列名，帮助您确认正确的住院号列。
住院号列：根据您提供的数据，Sheet1 中的住院号可能在 E 列（长数字串），但需要您确认。
类型转换：添加了 str() 转换，确保比较时类型一致。

使用步骤：

首先运行脚本，查看打印出的列名
根据实际列名修改 hospital_id_col 变量
再次运行脚本完成处理

如果您能提供 Sheet1 的具体列名或确认住院号所在的列，我可以进一步优化代码。或者您也可以根据打印出的列名自行调整 hospital_id_col 变量。

时间: 2025-07-15T22:31:25

👤 用户

帮我看一下

时间: 2025-07-15T22:36:04

🤖 DeepSeek (deepseek-chat)

根据您提供的表格数据，我注意到以下几点：

Sheet1表结构：
- AF列是数字ID（如25011989、25012115等）
- 其他列包含患者信息和收费数据
导出数据表结构：
- H列是”住院号”（如2401070064、22091500323等）
- 包含详细的胃镜检查数据
问题分析：
- 您希望用Sheet1的AF列值去匹配导出数据表的H列(住院号)
- 但这两个列的数值格式完全不同(AF列是25开头的长数字，H列是其他格式的住院号)
- 这种匹配不太可能找到对应关系
可能解决方案：
- 确认正确的匹配字段：是否应该用Sheet1的其他列来匹配？
- 或者AF列和H列之间是否有某种转换关系？
- 可能需要使用患者姓名+其他信息组合匹配

建议您：

确认Sheet1中哪个字段应该对应导出数据的”住院号”
或者提供这两个表之间的关联字段说明
如果确实要用AF列匹配，可能需要先建立AF列和住院号的映射关系表

您是否需要我根据其他字段(如患者姓名+检查时间)来尝试匹配？或者您能说明一下这两个表之间的关联逻辑吗？

时间: 2025-07-15T22:36:04

👤 用户

我明白了，没有命名为AF的列，是自然增长的AF这一列。

时间: 2025-07-15T23:02:44

🤖 DeepSeek (deepseek-chat)

明白了！您指的是 Excel 表格中按字母顺序排列的第 AF 列（即第 32 列），而不是列名是 “AF”。

修正后的 Python 脚本

import pandas as pd

# 读取 Excel 文件
file_path = '副本20250715.xls'
sheet1 = pd.read_excel(file_path, sheet_name='Sheet1')
export_data = pd.read_excel(file_path, sheet_name='导出数据')

# 获取 Sheet1 的 AF 列（第 32 列，索引 31）
sheet1_af_values = sheet1.iloc[:, 31]  # AF 列的值（25011989, 25012115 等）

# 创建一个新表用于存储匹配的数据
matched_data = pd.DataFrame()

# 在 Sheet1 中添加新列 "胃肠"，初始值为 "否"
sheet1['胃肠'] = '否'

# 遍历 Sheet1 的 AF 列
for index, af_value in enumerate(sheet1_af_values):
    # 在导出数据表的 "住院号" 列（H 列）中查找匹配
    matches = export_data[export_data['住院号'].astype(str) == str(af_value)]
    
    if not matches.empty:
        # 将匹配的数据添加到新表中
        matched_data = pd.concat([matched_data, matches])
        
        # 如果匹配的数据条数 ≥ 2，则将 "胃肠" 列设为 "是"
        if len(matches) >= 2:
            sheet1.at[index, '胃肠'] = '是'

# 保存结果到新 Excel 文件
with pd.ExcelWriter('结果_副本20250715.xls') as writer:
    sheet1.to_excel(writer, sheet_name='Sheet1', index=False)
    matched_data.to_excel(writer, sheet_name='匹配数据', index=False)

print("处理完成，结果已保存到 '结果_副本20250715.xls'")

关键修改点

sheet1.iloc[:, 31]：
- 由于 Excel 的 AF 列是第 32 列（A=0, B=1, …, AF=31），我们使用 iloc[:, 31] 获取该列数据。
export_data['住院号'].astype(str)：
- 确保住院号以字符串形式比较，避免因数据类型不同导致匹配失败。
sheet1.at[index, '胃肠'] = '是'：
- 如果匹配到 ≥ 2 条记录，则在 Sheet1 的 “胃肠” 列标记为 “是”。

运行步骤

安装依赖（如果未安装）：
1
pip install pandas openpyxl
运行脚本：
1
python your_script.py
检查输出：
- 生成 结果_副本20250715.xls，包含：
  - 修改后的 Sheet1（新增 “胃肠” 列）
  - 匹配数据 表（所有匹配的胃镜检查记录）

注意事项

如果 住院号 和 AF 列 的值格式不同（如 25011989 vs 2401070064），可能匹配不到数据。
如果需要调整匹配逻辑（如改用其他列匹配），请告诉我，我可以进一步优化脚本。

请尝试运行，如果有任何问题，欢迎反馈！ 🚀

时间: 2025-07-15T23:02:44

👤 用户

Traceback (most recent call last):
File “C:\Users\Notebook\AppData\Local\Programs\Python\Python313\Lib\site-packages\pandas\io\excel_base.py”, line 1136, in new
engine = config.get_option(f”io.excel.{ext}.writer”, silent=True)
File “C:\Users\Notebook\AppData\Local\Programs\Python\Python313\Lib\site-packages\pandas_config\config.py”, line 274, in call
return self.func(*args, **kwds)
~~~~~~~~~~~~~^^^^^^^^^^^^^^^
File “C:\Users\Notebook\AppData\Local\Programs\Python\Python313\Lib\site-packages\pandas_config\config.py”, line 146, in _get_option
key = _get_single_key(pat, silent)
File “C:\Users\Notebook\AppData\Local\Programs\Python\Python313\Lib\site-packages\pandas_config\config.py”, line 132, in _get_single_key
raise OptionError(f”No such keys(s): {repr(pat)}”)
pandas._config.config.OptionError: No such keys(s): ‘io.excel.xls.writer’

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
File “C:\Users\Notebook\Desktop\pyt.py”, line 31, in
with pd.ExcelWriter(‘结果_副本20250715.xls’) as writer:
~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^
File “C:\Users\Notebook\AppData\Local\Programs\Python\Python313\Lib\site-packages\pandas\io\excel_base.py”, line 1140, in new
raise ValueError(f”No engine for filetype: ‘{ext}’”) from err
ValueError: No engine for filetype: ‘xls’

时间: 2025-07-15T23:04:13

🤖 DeepSeek (deepseek-chat)

这个错误是因为 pandas 无法直接写入 .xls 格式的 Excel 文件（旧版 Excel 97-2003 格式），而您的输入文件可能是 .xls 格式。

解决方案

改用 .xlsx 格式（推荐）
- .xlsx 是较新的 Excel 格式，兼容性更好。
- 修改代码中的输出文件名：
  1
  with pd.ExcelWriter('结果_副本20250715.xlsx') as writer: # 改为 .xlsx

安装 xlwt 引擎（如果必须用 .xls）

旧版 .xls 需要 xlwt 库：
1
pip install xlwt

然后修改代码：

1	with pd.ExcelWriter('结果_副本20250715.xls', engine='xlwt') as writer:

修正后的完整代码

import pandas as pd

# 读取 Excel 文件
file_path = '副本20250715.xls'
sheet1 = pd.read_excel(file_path, sheet_name='Sheet1')
export_data = pd.read_excel(file_path, sheet_name='导出数据')

# 获取 Sheet1 的 AF 列（第 32 列，索引 31）
sheet1_af_values = sheet1.iloc[:, 31]  # AF 列的值（25011989, 25012115 等）

# 创建一个新表用于存储匹配的数据
matched_data = pd.DataFrame()

# 在 Sheet1 中添加新列 "胃肠"，初始值为 "否"
sheet1['胃肠'] = '否'

# 遍历 Sheet1 的 AF 列
for index, af_value in enumerate(sheet1_af_values):
    # 在导出数据表的 "住院号" 列（H 列）中查找匹配
    matches = export_data[export_data['住院号'].astype(str) == str(af_value)]
    
    if not matches.empty:
        # 将匹配的数据添加到新表中
        matched_data = pd.concat([matched_data, matches])
        
        # 如果匹配的数据条数 ≥ 2，则将 "胃肠" 列设为 "是"
        if len(matches) >= 2:
            sheet1.at[index, '胃肠'] = '是'

# 保存结果到新 Excel 文件（使用 .xlsx 格式）
with pd.ExcelWriter('结果_副本20250715.xlsx') as writer:  # 改为 .xlsx
    sheet1.to_excel(writer, sheet_name='Sheet1', index=False)
    matched_data.to_excel(writer, sheet_name='匹配数据', index=False)

print("处理完成，结果已保存到 '结果_副本20250715.xlsx'")

可能的问题排查

如果仍然报错
- 检查输入文件 副本20250715.xls 是否损坏，尝试用 Excel 打开确认。
- 如果文件是 .xlsx 格式，但扩展名是 .xls，请重命名文件。
如果 住院号 匹配不到数据
- 可能是 住院号 和 AF 列 的值格式不同（如 25011989 vs 2401070064）。
- 可以打印 sheet1_af_values 和 export_data['住院号'] 检查：
  1
  2
  print("Sheet1 AF 列示例:", sheet1_af_values.head())
  print("导出数据住院号示例:", export_data['住院号'].head())

如果需要其他匹配方式

可以改用 患者姓名 + 检查时间 组合匹配：

matches = export_data[
    (export_data['姓名'] == sheet1.iloc[index, 1]) &  # 假设姓名在第2列
    (export_data['报告时间'] == sheet1.iloc[index, 4])  # 假设报告时间在第5列
]

请尝试运行修正后的代码，如果仍有问题，请提供更多信息（如示例数据的前几行），我会进一步优化！ 🚀

时间: 2025-07-15T23:04:13

对话统计

消息总数: 10 条
处理状态: 成功转换