从Python读取BerkleyDB文件:`\x01\x0b\x88\x0c\x01`?

1 投票
2 回答
1436 浏览
提问于 2025-04-16 15:25

这个问题简单来说就是:\x04++HLMh7EjP3ILSfF\x00

'\x01\x0b\x88\x0c\x01-\x10\x02\x06!\x05"\x05#\n$\x0c\'\x0e%\x0b\x01&\x02\'\x06(\n\x00\x00'

是什么意思?

大家好,

我正在尝试读取Palm Pre 2的数据库文件。虽然在文档中有一些信息,但对我来说还是不够,无法清楚理解这个格式。

通过使用file命令,我了解到这个格式是objects.db: Berkeley DB (Btree, version 9, native byte-order)

直接用bsddb.open()打开数据库没有成功;我不得不使用

>>> env = bsddb.db.DBEnv()
>>> env.open(None, bsddb.db.DB_CREATE | bsddb.db.DB_INIT_MPOOL)
>>> internal_db = bsddb.db.DB(env)
>>> internal_db.open('C:\objects.db', 'objects.db', bsddb.db.DB_BTREE, bsddb.db.DB_RDONLY)

现在我已经打开了数据库,但键和值是用我不理解的格式编码的:例如,这里有一些键:'\x04++HMvu4v2GZbo1Ox\x00', '\x04++HMwBSPR8Zvwkt5\x00', '\x04++HMwF4OJ0R+WeSS\x00',还有一个值:

'\x01\x0b\xb7\r\x00\x05\xee\x89\x10\x029\x060\x04\x00/\x03\x04++HQqD0wWr_hZP75\x00\x00 \x02"\x06\x00$\x04inbox\x001\x02+\x04+33626320868\x00\x00%\x0e\x00\x00\x01.0\x19\xb3\x10&\x04Ok\x00-\rM\\/\x892\n:\r\x00\x05\xee\x89\'\x04sms\x003\n(\x04successful\x00.\rM\\/\x89\x00'

我尝试用utf8解码,但没有得到任何令人信服的结果。你们知道使用的是什么编码吗?我不理解file命令输出中的native byte-order部分,这可能和这个有关吗?

谢谢!

2 个回答

0

试试用 PalmDB 或者 dbsql,别用 bsddb

1

有根据的猜测

通过简单观察,这条信息很可能是“短信发送成功”,后面跟着一个电话号码:

unicode(s, errors='ignore') u'\x01\x0b\r\x00\x05\x10\x029\x060\x04\x00/\x03\x04++HQqD0wWr_hZP75\x00\x00 \x02"\x06\x00$\x04inbox\x001\x02+\x04+33626320868\x00\x00%\x0e\x00\x00\x01.0\x19\x10&\x04Ok\x00-\rM\/2\n:\r\x00\x05\'\x04sms\x003\n(\x04successful\x00.\rM\/\x00'

我觉得其他的字符是二进制数据。

编码方式

解码后并没有帮助——chardet和BeautifulSoup都把它识别为 windows-1252

>>> s=u'\x01\x0b\xb7\r\x00\x05\xee\u2030\x10\x029\x060\x04\x00/\x03\x04++HQqD0wWr_hZP75\x00\x00 \x02"\x06\x00$\x04inbox\x001\x02+\x04+33626320868\x00\x00%\x0e\x00\x00\x01.0\x19\xb3\x10&\x04Ok\x00-\rM\\/\u20302\n:\r\x00\x05\xee\u2030\'\x04sms\x003\n(\x04successful\x00.\rM\\/\u2030\x00'
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup(s)
>>> soup.originalEncoding
'windows-1252'
>>> chardet.detect(s)
{'confidence': 0.5, 'encoding': 'windows-1252'}

不过,使用1252编码解码出来的内容并没有什么有用的信息:

>>> s.decode('windows-1252')
u'\x01\x0b\xb7\r\x00\x05\xee\u2030\x10\x029\x060\x04\x00/\x03\x04++HQqD0wWr_hZP75\x00\x00 \x02"\x06\x00$\x04inbox\x001\x02+\x04+33626320868\x00\x00%\x0e\x00\x00\x01.0\x19\xb3\x10&\x04Ok\x00-\rM\\/\u20302\n:\r\x00\x05\xee\u2030\'\x04sms\x003\n(\x04successful\x00.\rM\\/\u2030\x00'

撰写回答