试图将工作流程从stata复制到python存在循环和导出问题

2024-04-26 18:39:48 发布

您现在位置:Python中文网/ 问答频道 /正文

# import pandas package 
import pandas as pd
  
# List of Tuples
students = [('Ankit', 'BA', 'A'),
           ('Swapnil', 'BSc', 'B'),
           ('Priya', 'BA', 'B'),
           ('Shivangi', 'BSc', 'B'),
            ]
# Create a DataFrame object
stu_df = pd.DataFrame(students, columns =['Name', 'Qualification', 'Section'],
                      index =['1', '2', '3', '4'])
  
stu_df

stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack()

freq = stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack().to_frame()
freq

for column, data in freq.groupby(level=0):
    data.to_excel(f'{column}.xlsx')

**我不是一个真正的程序员,我最近一直在尝试在Python上的Stata上复制我的工作流程。我使用的数据集有很多分类变量。我在Stata上的工作流程的一部分是为每个分类变量生成频率表,并将其导出到excel文件的工作表中。工作表以导出到工作表的变量的描述性统计信息命名

在上面的代码中,我已经能够生成所需的描述性统计数据,但正在将其导出到单独的excel文件中。这个想法是有一个excel文件和三张带有变量名称的表格——名称、资格和部分

我尝试自动化的另一件事是基本上确保结果是一个体面的格式。在这个名为'qualification'的excel文件代码中,第一列有点奇怪。我希望第二列名为'qualification',第三列名为'percentage',同时完全删除第一列

要求编写代码感觉很奇怪,但我已经被这个问题困扰了一段时间。也许,如果有人有任何指导意见,看看该在哪个领域完成这项工作,这也会起作用! 很抱歉,我不清楚,这是我第一次在这里征求意见,如果需要的话,我很乐意澄清我的问题。谢谢!**