Python将基于类型的字符过滤到结构中

range_masks_list = [(m_mask1.span()) for m_mask1 in re.finditer("\{([0-9]+|[0-9]+-[0-9]+|[0-9]+-\*)\}",sequence)] ## looks for {int}, {int-int} and {int-*} byte_masks_list = [(m_mask2.span()) for m_mask2 in re.finditer("\[[a-fA-F0-9]{2}:[a-fA-F0-9]{2}]",sequence)] ## looks for [a:b] where a and b are byte ranges options_sets_list = [(m_mask3.span()) for m_mask3 in re.finditer("\(([a-fA-F0-9]{2})+\|([a-fA-F0-9]{2})+(\|([a-fA-F0-9]{2})+)*\)",sequence)] ## looks for regex or clauses e.g. (a|b) string_chunk_list = [(m_mask4.span()) for m_mask4 in re.finditer("([a-fA-F0-9]{2})+",sequence)] ## looks for uninterrupted hex byte spans

def do_fragmenter(self,sequence): """ converts the grep grammer normalised string into a set of fragments and offsets for sig population""" sequence = sequence.replace(" ","") range_masks_list = [(m_mask1.span()) for m_mask1 in re.finditer("\{([0-9]+|[0-9]+-[0-9]+|[0-9]+-\*)\}",sequence)] ## looks for {int}, {int-int} and {int-*} byte_masks_list = [(m_mask2.span()) for m_mask2 in re.finditer("\[[a-fA-F0-9]{2}:[a-fA-F0-9]{2}]",sequence)] ## looks for [a:b] where a and b are byte ranges options_sets_list = [(m_mask3.span()) for m_mask3 in re.finditer("\(([a-fA-F0-9]{2})+\|([a-fA-F0-9]{2})+(\|([a-fA-F0-9]{2})+)*\)",sequence)] ## looks for regex or clauses e.g. (a|b) string_chunk_list = [(m_mask4.span()) for m_mask4 in re.finditer("([a-fA-F0-9]{2})+",sequence)] ## looks for uninterupted hex byte spans string_chunks = [] string_chunks_len = [] for pair in string_chunk_list: string_chunks.append(sequence[pair[0]:pair[1]]) string_chunks_len.append(len(sequence[pair[0]:pair[1]])) print zip(string_chunks,string_chunks_len)

1条回答

网友

1楼 · 发布于 2024-04-20 06:07:08

考虑到你定义的语法元素，你可以使用这样的方法（用你需要的处理替换打印）：

#! /usr/bin/python3.2

import re

a = '524946(46|58){4}434452[22:33]367672736E'
patterns = [ ('([0-9a-fA-F]+)', 'Sequence '),
    ('(\\([0-9a-fA-F]+\\|[0-9a-fA-F]+\\))', 'Option '),
    ('({[0-9a-fA-F]+})', 'Curly '),
    ('(\\[[0-9a-fA-F]+:[0-9a-fA-F]+\\])', 'Slice ') ]

while a:
    found = False
    for pattern, name in patterns:
        m = re.match (pattern, a)
        if m:
            m = m.groups () [0]
            print (name + m)
            a = a [len (m):]
            found = True
            break
    if not found: raise Exception ('Unrecognized sequence')

收益率：

Sequence 524946
Option (46|58)
Curly {4}
Sequence 434452
Slice [22:33]
Sequence 367672736E

相关问题更多 >

编程相关推荐

热门问题

热门文章