如何使用Python或R高效地从海量CSV中提取唯一行

+--------+------+-------+------+------+ | Ticker | Open | Close | High | Low | +--------+------+-------+------+------+ | A | 121 | 121 | 212 | 2434 | | A | 32 | 23 | 43 | 344 | | A | 121 | 121 | 212 | 2434 | | A | 32 | 23 | 43 | 344 | | A | 121 | 121 | 212 | 2434 | | B | 32 | 23 | 43 | 344 | +--------+------+-------+------+------+

2条回答

网友

1楼 · 编辑于 2024-05-19 03:39:49

可以从文件名检索索引：

(index <- data.frame(Ticker = toupper(gsub("^.*_(.*)\\.csv",
                                           "\\1",
                                           list.files()))))
##   Ticker
## 1      A
## 2      B

write.csv(index, "index.csv")

网友

2楼 · 编辑于 2024-05-19 03:39:49

您可以循环遍历每个文件，获取每个文件的索引，并创建一组所有索引的并集。你知道吗

import glob

tickers = set()
for csvfile in glob.glob('*.csv'):
    data = pd.read_csv(csvfile, index_col=0, header=None)  # or True, however your data is set up
    tickers.update(data.index.tolist())

pd.Series(list(tickers)).to_csv('index.csv', index=False)

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用Python或R高效地从海量CSV中提取唯一行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >