我在绘制Y轴值范围从1到20+百万的大CSV文件时遇到问题。我现在面临两个问题
Y轴不会显示其假定的所有值。当使用原始数据时,它最多显示600万,而不是显示最多2000万的所有数据。在我放在下面的示例数据(较小的数据)中,它只显示第一个Y轴值,不显示任何其他值
在标签部分中,由于我使用的是色调和样式=名称,“名称”显示为标签标题和内部的项目
问题:
谁能给我一个样本或帮助我回答如何显示所有Y轴值?我如何修复它,使所有Y值都显示出来
如何在标签部分中去掉“名称”,而不去掉散点的形状和颜色
(请告诉我是否存在任何来源,或者在其他帖子上回答了这个问题,但没有将其标记为重复。如果我有任何语法/拼写问题需要解决,也请告诉我。谢谢!)
您可以在下面找到我用来绘制图表和样本数据的函数。
def test_graph (file_name):
data_file = pd.read_csv(file_name, header=None, error_bad_lines=False, delimiter="|", index_col = False, dtype='unicode')
data_file.rename(columns={0: 'name',
1: 'date',
2: 'name3',
3: 'name4',
4: 'name5',
5: 'ID',
6: 'counter'}, inplace=True)
data_file.date = pd.to_datetime(data_file['date'], unit='s')
norm = plt.Normalize(1,4)
cmap = plt.cm.tab10
df = pd.DataFrame(data_file)
# Below creates and returns a dictionary of category-point combinations,
# by cycling over the marker points specified.
points = ['o', 'v', '^', '<', '>', '8', 's', 'p', 'H', 'D', 'd', 'P', 'X']
mult = len(df['name']) // len(points) + (len(df['name']) % len(points) > 0)
markers = {key:value for (key, value)
in zip(df['name'], points * mult)} ; markers
sc = sns.scatterplot(data = df, x=df['date'], y=df['counter'], hue = df['name'], style = df['name'], markers = markers, s=50)
ax.set_autoscaley_on(True)
ax.set_title("TEST", size = 12, zorder=0)
plt.legend(title="Names", loc='center left', shadow=True, edgecolor = 'grey', handletextpad = 0.1, bbox_to_anchor=(1, 0.5))
ax.xaxis.set_major_locator(ticker.MultipleLocator(1))
ax.yaxis.set_major_locator(ticker.MultipleLocator(100))
plt.xlabel("Dates", fontsize = 12, labelpad = 7)
plt.ylabel("Counter", fontsize = 12)
plt.grid(axis='y', color='0.95')
fig.autofmt_xdate(rotation = 30)
fig = plt.figure(figsize=(20,15),dpi=100)
ax = fig.add_subplot(1,1,1)
test_graph(file_name)
plt.savefig(graph_results + "/Test.png", dpi=100)
# Prevents to cut-off the bottom labels (manually) => makes the bottom part bigger
plt.gcf().subplots_adjust(bottom=0.15)
plt.show()
样本数据
namet1|1582334815|ai1|ai1||150|101
namet1|1582392415|ai2|ai2||142|105
namet2|1582882105|pc1|pc1||1|106
namet2|1582594106|pc1|pc1||1|123
namet2|1580592505|pc1|pc1||1|141
namet2|1580909305|pc1|pc1||1|144
namet3|1581974872|ai3|ai3||140|169
namet1|1581211616|ai4|ai4||134|173
namet2|1582550907|pc1|pc1||1|179
namet2|1582608505|pc1|pc1||1|185
namet4|1581355640|ai5|ai5|bcu|180|298466
namet4|1582651641|pc2|pc2||233|298670
namet5|1582406860|ai6|ai6|bcu|179|298977
namet5|1580563661|pc2|pc2||233|299406
namet6|1581283626|qe1|q0/1|Link to btse1/3|51|299990
namet7|1581643672|ai5|ai5|bcu|180|300046
namet4|1581758842|ai6|ai6|bcu|179|300061
namet6|1581298027|qe2|q0/2|Link to btse|52|300064
namet1|1582680415|pc2|pc2||233|300461
namet6|1581744427|pc3|p90|Link to btsi3a4|55|6215663
namet6|1581730026|pc3|p90|Link to btsi3a4|55|6573348
namet6|1582190826|qe2|q0/2|Link to btse|52|6706378
namet6|1582190826|qe1|q0/1|Link to btse1/3|51|6788568
namet1|1581974815|pc2|pc2||233|6895836
namet4|1581974841|pc2|pc2||233|7874504
namet6|1582176427|qe1|q0/1|Link to btse1/3|51|9497687
namet6|1582176427|qe2|q0/2|Link to btse|52|9529133
namet7|1581974872|pc2|pc2||233|9573450
namet6|1582162027|pc3|p90|Link to btsi3a4|55|9819491
namet6|1582190826|pc3|p90|Link to btsi3a4|55|13494946
namet6|1582176427|pc3|p90|Link to btsi3a4|55|19026820
我得到的结果:
大数据:
小数据:
更新的图表Updated-graph
首先,对您的帖子进行一些改进:您缺少导入语句
线路
不需要,因为
data_file
已经是数据帧。台词不要像您所期望的那样在
points
之间循环,可以按照建议使用itertools
{a1}。还有,设置yticks,比如如果你的数据跨越0到2000万的值,那么每100个可能太多了,考虑用100,换句话说,1000000替换100。p>
我能重现你的第一个问题。使用
df.dtypes
我发现counter
列被存储为类型object
。添加行为我解决了你的第一个问题。不过,我无法复制你的第二期。下面是我看到的结果图: 您是否尝试过将所有软件包更新到最新版本
编辑:作为对您的评论的后续,您还可以通过在绘图中替换1来调整XTICK的数量
按更高的数字,比如说10。结合我的所有建议并删除看似不必要的函数定义,我的代码版本如下所示:
相关问题 更多 >
编程相关推荐