我有csv(或dataframe),内容如下:
date | URLs | Count
-----------------------------------------------------------------------
17-mar-2014 | www.example.com/abcdef&=randstring | 20
10-mar-2016 | www.example.com/xyzabc | 12
14-apr-2015 | www.example.com/abcdef | 11
12-mar-2016 | www.example.com/abcdef/randstring | 30
15-mar-2016 | www.example.com/abcdef | 10
17-feb-2016 | www.example.com/xyzabc&=randstring | 15
17-mar-2016 | www.example.com/abcdef&=someotherrandstring | 12
我想清理“url”列,在这里我想将www.example.com/abcdef&=randstring
或{
我尝试使用urlparse
库,并解析url,使其只与urlparse(url).path
/query
/params
组合在一起。但是,由于每个URL都指向完全不同的path/query/params,所以它效率低下。在
有没有办法用熊猫来解决这个问题?如有任何提示/建议,我们将不胜感激。在
我认为它与正则表达式的关系比熊猫更大,试着用熊猫。申请更改一列。在
输出:
^{pr2}$我认为您可以通过}之间的}创建的所有字符串,另一个字符串以
regex
-过滤a-z
和{a-z
和{/
开头:相关问题 更多 >
编程相关推荐