解析regex中的FIX协议？

网友

1楼 · 编辑于 2024-05-23 22:57:49

使用像expresso或regexbuddy这样的regex工具。
为什么不在^A上进行拆分，然后为每个放入散列的元素匹配([^=])+=(.*)？您还可以使用一个开关进行筛选，该开关默认情况下不会添加您不感兴趣的标记，并且对于您感兴趣的所有标记都会失败。

网友

2楼 · 编辑于 2024-05-23 22:57:49

^A实际上是\x{01}，这就是它在vim中的显示方式。在perl中，我是通过在hex 1上进行拆分，然后在“=”上进行拆分，在第二次拆分时，数组的值[0]是标记，值[1]是值。

网友

3楼 · 编辑于 2024-05-23 22:57:49

不需要在“\x01”上拆分，然后在regex上拆分，然后再进行筛选。如果您只需要标记34、49和56（MsgSeqNum、SenderCompId和TargetCompId），那么可以使用regex：

dict(re.findall("(?:^|\x01)(34|49|56)=(.*?)\x01", raw_msg))

如果您知道发送方没有可能导致任何简单正则表达式中出现错误的嵌入数据，那么这样的简单正则表达式将起作用。具体来说：

没有原始数据字段（实际上是数据len和原始数据的组合，如rawdataleng、Raw Data（95/96）或XmlDataLen、XmlData（212213）
没有用于unicode字符串的编码字段，如EncodedTextLen、EncodedText（354/355）

处理这些情况需要很多额外的解析。我使用一个定制的python解析器，但是即使您上面引用的fixlib代码也会出错。但是，如果您的数据没有这些异常，那么上面的regex应该会返回您所需字段的一个很好的dict。

编辑：我保留了上面的正则表达式，但应该对其进行修改，以便最终的match元素是(?=\x01)。这个解释可以在@tropleee的answer here中找到。