Python中文
首页
教程
问答
标签
搜索
登录
注册
如何使用Python或R高效地从海量CSV中提取唯一行
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有一个巨大的CSV(1.4gb,超过1MM行)的股市数据,我将使用R</p> <p>这张桌子大致上像这样。对于每个股票代码,有数千行数据。你知道吗</p> <pre><code>+--------+------+-------+------+------+ | Ticker | Open | Close | High | Low | +--------+------+-------+------+------+ | A | 121 | 121 | 212 | 2434 | | A | 32 | 23 | 43 | 344 | | A | 121 | 121 | 212 | 2434 | | A | 32 | 23 | 43 | 344 | | A | 121 | 121 | 212 | 2434 | | B | 32 | 23 | 43 | 344 | +--------+------+-------+------+------+ </code></pre> <p>为了简化处理和测试,我使用这个问题中提到的脚本将这个庞然大物分解成更小的文件:<a href="https://stackoverflow.com/questions/9589453/how-do-i-slice-a-single-csv-file-into-several-smaller-ones-grouped-by-a-field?noredirect=1&lq=1">How do I slice a single CSV file into several smaller ones grouped by a field?</a></p> <p>脚本将输出<code>data_a.csv</code>、<code>data_b.csv</code>等文件</p> <p>但是,我还想创建<code>index.csv</code>,它只列出所有唯一的股票代码名。你知道吗</p> <p>例如</p> <pre><code>+---------+ | Ticker | +---------+ | A | | B | | C | | D | | ... | +---------+ </code></pre> <p>当处理一个巨大的文件时,有没有人能推荐一种在R或Python中有效的方法?你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>可以从文件名检索索引:</p> <pre><code>(index <- data.frame(Ticker = toupper(gsub("^.*_(.*)\\.csv", "\\1", list.files())))) ## Ticker ## 1 A ## 2 B write.csv(index, "index.csv") </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么我的神经网络模型的准确性不能在这个训练集上得到提高?
7 回答
为什么我的神经网络模型的权重变化不大?
1 回答
为什么我的神经网络的成本不断增加?
8 回答
为什么我的神经网络的输入pickle文件是19GB?
6 回答
为什么我的神经网络给属性错误?“非类型”对象没有属性“形状”
9 回答
为什么我的神经网络训练这么慢?
3 回答
为什么我的神经网络输出错误?
8 回答
为什么我的神经网络预测适用于MNIST手绘图像时是正确的,而适用于我自己的手绘图像时是不正确的?
7 回答
为什么我的神经网络验证精度比我的训练精度高,而且它们都是常数?
6 回答
为什么我的私人用户间聊天会显示在其他用户的聊天档案中?
8 回答
为什么我的积分的绝对误差估计值大于积分(使用scipy.integrate.nqad)?
7 回答
为什么我的积层回归器得分比它的组件差?
5 回答
为什么我的移动方法不起作用?
6 回答
为什么我的稀疏张量不能转换成张量
2 回答
为什么我的稀疏张量不能转换成张量?
4 回答
为什么我的程序“停止”了?
8 回答
为什么我的程序一直试图占用所有可用的CPU
4 回答
为什么我的程序不使用指定的代理
2 回答
为什么我的程序不工作(python帮助中的反向函数)?
3 回答
为什么我的程序不工作时,我使用多处理模块
9 回答