正在尝试缓存s3文件

import s3fs import pandas as pd FS = s3fs.S3FileSystem() file = FS.open('s3://my-datasets/something/foo.csv') # of = fsspec.open("filecache::s3://bucket/key", s3={'anon': True}, filecache={'cache_storage'='/tmp/files'}) df = pd.read_csv(file, sep='|', header=None) print(df)

1条回答

网友

1楼 · 发布于 2024-05-21 07:32:18

AmazonS3是一个对象存储服务，可以通过经过身份验证的API请求访问

诸如s3fs之类的工具将AmazonS3表示为一个文件系统，但它们需要将这种用法转换为正常的S3API调用。在S3或本地s3fs虚拟磁盘中进行大量更新时，更新另一端可能需要一些时间，在高使用率情况下，它们可能会变得不同步

s3fs保留文件缓存的事实意味着文件可能会更快地失去同步，这取决于它返回并检查S3中的内容是否已更改的频率

这基本上是在应用程序和S3之间增加了另一层复杂性。如果你能直接去，它总是更可靠。但是，这意味着您可能需要自己实现一些有用的功能

如果您打算在生产环境中使用它，我建议您创建一个模拟适当使用级别的测试平台，以确认所有系统都能按预期工作

相关问题更多 >

编程相关推荐

热门问题

热门文章