所以,我有一个专栏“名字”。如果我这样做:
df['Names'].value_counts()
我明白了:
Mr. Richard Vance 1
Mrs. Angela Bell 1
Mr. Stewart Randall 1
Mr. Andrew Ogden 1
Mrs. Maria Berry 1
..
Mrs. Lillian Wallace 1
Mr. William Bailey 1
Mr. Paul Ball 1
Miss Pippa Bond 1
Miss Caroline Gray 1
没关系。。。Thera有很多不同的名字。但我想做的是只对第一个字符执行这个值_counts(),直到它到达空字符(即,分隔的空间,例如Lillian Wallace的Miss或Mrs.),这样输出将是,例如:
1000太太 2000先生 2000小姐
只是想知道列名中有多少不同的变量,以便在第二阶段根据这些变量创建另一个变量(即性别)
如果你想知道唯一的值,如果总有一个空间,你可以这样做
输出是一个列表:
这里有一个解决方案。您可以使用正则表达式:
注:
(\w+\.\s)
将从姓名中提取parts先生和夫人(或任何像Dr.这样的头衔)您可以在^{} 之后的} :
str[0]
上使用^{相关问题 更多 >
编程相关推荐