# import pandas package
import pandas as pd
# List of Tuples
students = [('Ankit', 'BA', 'A'),
('Swapnil', 'BSc', 'B'),
('Priya', 'BA', 'B'),
('Shivangi', 'BSc', 'B'),
]
# Create a DataFrame object
stu_df = pd.DataFrame(students, columns =['Name', 'Qualification', 'Section'],
index =['1', '2', '3', '4'])
stu_df
stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack()
freq = stu_df.apply(lambda x: x.value_counts(normalize=True).mul(100).round(2)).T.stack().to_frame()
freq
for column, data in freq.groupby(level=0):
data.to_excel(f'{column}.xlsx')
**我不是一个真正的程序员,我最近一直在尝试在Python上的Stata上复制我的工作流程。我使用的数据集有很多分类变量。我在Stata上的工作流程的一部分是为每个分类变量生成频率表,并将其导出到excel文件的工作表中。工作表以导出到工作表的变量的描述性统计信息命名
在上面的代码中,我已经能够生成所需的描述性统计数据,但正在将其导出到单独的excel文件中。这个想法是有一个excel文件和三张带有变量名称的表格——名称、资格和部分
我尝试自动化的另一件事是基本上确保结果是一个体面的格式。在这个名为'qualification'的excel文件代码中,第一列有点奇怪。我希望第二列名为'qualification',第三列名为'percentage',同时完全删除第一列
要求编写代码感觉很奇怪,但我已经被这个问题困扰了一段时间。也许,如果有人有任何指导意见,看看该在哪个领域完成这项工作,这也会起作用! 很抱歉,我不清楚,这是我第一次在这里征求意见,如果需要的话,我很乐意澄清我的问题。谢谢!**
目前没有回答
相关问题 更多 >
编程相关推荐