如何使用BeautifulSoup在Python中高效地比较图像

2024-04-25 21:28:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从https://mongolia.gogo.mn/https://gogo.mn/抓取数据,那里有双语数据——同一篇文章的蒙古语和英语版本。然而,不可能自动抓取数据并映射哪个英语文章对应于它的蒙古语文章,因为它们的URL完全不同。例如https://mongolia.gogo.mn/r/162466https://gogo.mn/r/2e313。他们使用的图像是一样的

我已经编写了一个比较图像的代码

var=`compare -metric AE $1 $2 null: 2>&1`
echo $var

如果两个图像完全相同,则返回0。所以我的计划是从蒙古语网站上获取每一篇文章及其图片,并获取每一篇英文文章,一旦我有了图片,就比较它们。然而,该网站包含大量的文章,需要很长时间才能将每一张蒙古语图片与每一张英语图片进行比较

我如何从两侧绘制文章的地图,并确保它们相互对应

最后,我希望输出文件像

https://gogo.mn/r/2e313,https://mongolia.gogo.mn/r/162466
another_article_en,another_article_mn

Tags: 数据https图像版本url网站vararticle