我正在用Python编写一个ETL脚本,该脚本获取CSV文件中的数据,验证和清理数据,并根据某些规则对每一行进行分类或分类,最后将其加载到postgresql数据库中。在
数据如下(简化):
ColA, ColB, Timestamp, Timestamp, Journaltext, AmountA, AmountB
每一行都是一个金融交易。 我要做的是根据一些规则对事务进行分类。 这些规则基本上是与Journaltext列中的文本匹配的正则表达式。在
所以我想做的是:
^{pr2}$我不知道如何有效地编写classify()函数。在
分类规则如下:
好吧。那么如何用Python表示这些类别和相应的规则呢?在
我非常感谢你的意见。即使你不能提供一个完整的解决方案。只要能给我一个正确的方向就好了。谢谢。在
没有任何多余的绒毛:
在Python中,可以使用
in
运算符来测试字符串的子集。您可以添加一些东西,如isinstance(match, str)
,以检查您使用的是简单字符串还是正则表达式对象。它有多先进取决于你。在pseudo python中的这个解决方案怎么样:
特点:
您甚至可以从配置文件中读取优先类别列表和regex,但这是留给读者的练习。。。在
相关问题 更多 >
编程相关推荐