我想得到两个不同的字符串中的索引数。你知道吗
固定的东西:
字符串数据在任何索引上只有0或1。i、 字符串是数字的二进制表示形式。你知道吗
两条线的长度相同。你知道吗
对于上面的问题,我用python编写了下面的函数
def foo(a,b):
result = 0
for x,y in zip(a,b):
if x != y:
result += 1
return result
但问题是这些弦是巨大的。非常大。所以上面的函数占用了太多的时间。我要做的任何事都能让它超快。你知道吗
我在c++中也是这样做的,现在速度很快,但仍然无法理解如何用短整数进行打包以及@Yves Daoust所说的一切:
size_t diff(long long int n1, long long int n2)
{
long long int c = n1 ^ n2;
bitset<sizeof(int) * CHAR_BIT> bits(c);
string s = bits.to_string();
return std::count(s.begin(), s.end(), '1');
}
未经测试,但其性能如何:
我将在这里介绍这些选项,但基本上你是在计算两个数字之间的汉明距离。有一些专用的库可以让这个过程非常非常快,但是让我们首先关注纯Python选项。你知道吗
你的方法,拉链
zip()
首先生成一个大列表,然后让您循环。您可以改用itertools.izip()
,使其成为生成器表达式:这样一次只生成一对,避免了必须先创建一个大的元组列表。你知道吗
Python布尔类型是
int
的子类,其中True == 1
和False == 0
,允许您对它们求和:改为使用整数
但是,您可能需要重新考虑您的输入数据。使用整数来表示二进制数据要有效得多;整数可以直接操作。内联进行转换,然后计算XOR结果上的1数:
但是不必首先将
a
和b
转换为整数会更有效率。你知道吗时间比较:
如果输入变大,XOR方法的速度会快上几个数量级,这就是先将输入转换成
int
。你知道吗用于位计数的专用库
位计数(} extension library (围绕GMP library的Python包装器)并使用
format(integer, 'b').count(1)
)非常快,但是如果安装^{gmpy.popcount()
函数,则可以更快:gmpy.popcount()
在我的机器上比str.count()
方法快大约20倍。同样,不必首先将a
和b
转换为整数将消除另一个瓶颈,但即使这样,每次调用的性能也几乎翻了一番:为了说明当
a
和b
是整数时的区别:汉明距离专用库
gmpy
库实际上包含一个gmpy.hamdist()
函数,它直接计算这个精确的数字(整数的异或结果中的1位数):如果你用整数开头,这会让你大吃一惊
比较:
这是两个3k以上数字之间汉明距离的10万倍。你知道吗
另一个可以计算距离的包是^{} ,它支持直接计算字符串之间的汉明距离。你知道吗
确保使用
--with-c
开关编译C优化;当使用pip
安装时,例如使用bin/pip install Distance --install-option --with-c
。你知道吗再次将其与具有位计数的异或方法进行比较:
它使用的是简单的方法;压缩两个输入字符串并计算差异的数量,但是由于它在C中这样做,所以速度仍然快得多,大约是原来的10倍。但是
gmpy.hamdist()
函数在使用整数时仍然优于它。你知道吗如果字符串表示二进制数,则可以转换为整数并使用位运算符:
相关问题 更多 >
编程相关推荐