我想删除sms
列包含超过3个垃圾值的所有记录/行,简单地说,我想删除下面给定数据帧中的第4行和第5行
id city department sms category
01 khi revenue quk respns. 1
02 lhr revenue good. 1
03 lhr revenue greatœ1øið 0
04 isb accounts ?xœ1øiûüð÷üœç8i 0
05 isb accounts %â¡ã‘ã¸$ãªã±t%rã«ãÿã©â£ 0
预期数据帧:
id city department sms category
1 khi revenue quk respns. 1
2 lhr revenue good. 1
3 lhr revenue greatœ1øið 0
ascii表只扩展到127,这意味着如果我们做一个
ord(<character>)
并得到一个大于127的值,那么这不是一个有效的ascii字符使用此方法,我们可以计算非Ascii字符的数量,并且只返回
True
,其中有3个或更少输出:
我们可以使用^{} 来计算列} 来创建
sms
中每个字符串中正则表达式模式[^\x00-\x7F]
(匹配单个非ASCII字符)的出现次数,然后使用^{boolean mask
,并使用此掩码来过滤行:结果:
相关问题 更多 >
编程相关推荐