选择clickhouse data,convert to pandas dataframes
clickhouse2pandas的Python项目详细描述
单击家庭2和
选择clickhouse数据,使用ClickHouse HTTP interface将转换为pandas数据帧和各种其他格式。
功能
- 默认情况下,传输数据是compressed,这减少了网络流量,从而减少了下载数据的时间。
- 带有一个动态下载标签,显示下载了多少数据。
- 将clickhouse查询结果转换为正确的pandas数据类型,例如ClickHouse DateTime->;pandas datetime64。
- 最小依赖项、5个标准python库(urllib、http、gzip、json、time)和1个外部库(pandas)。
安装
pip install clickhouse2pandas
使用量
importclickhouse2pandasasch2pdconnection_url='http://user:password@clickhouse_host:8123'query='select * from system.numbers limit 1000000'df=ch2pd.select(connection_url,query)# df is a pandas dataframe converted from ClickHouse query result
API参考
clickhouse2pandas.select(connection_url,query=None,convert_to='DataFrame',settings=None)
返回由“convert_to”参数指定的格式化查询结果。
参数:
- 连接url:指向clickhouse http接口的连接url,例如
http://user:password@clickhouse_host:8123
- query:对于sql查询,查询应该以“select”开头
- convert_to:将查询结果转换为特定格式,可以是以下格式之一:“dataframe”、“tabseparated”、“tabseparateddraw”、“tabseparatedwithnames”、“tabseparatedwithnamesandtypes”、“csv”、“csvwithnames”、“values”、“vertical”、“json”、“jsoncompact”、“jsoneachrow”、“tskv”、“prettycompact”,“PrettyCompactMonoBlock”、“PrettyNoeScapes”、“PrettySpace”、“XML”。请参阅clickhouseInput and Output Formats
- settings:包含设置键值的dict,默认设置为{enable_http_compression':1,'send_progress_in_http_headers':0,'log_querys':1,'connect_timeout':10,'receive_timeout':300,'send_timeout':300,'output_format_json_quote_64bit_integers':0,'wait_end_of_query':0}。请参阅clickhouseSettings