我试图从https://mongolia.gogo.mn/
和https://gogo.mn/
抓取数据,那里有双语数据——同一篇文章的蒙古语和英语版本。然而,不可能自动抓取数据并映射哪个英语文章对应于它的蒙古语文章,因为它们的URL完全不同。例如https://mongolia.gogo.mn/r/162466
和https://gogo.mn/r/2e313
。他们使用的图像是一样的
我已经编写了一个比较图像的代码
var=`compare -metric AE $1 $2 null: 2>&1`
echo $var
如果两个图像完全相同,则返回0。所以我的计划是从蒙古语网站上获取每一篇文章及其图片,并获取每一篇英文文章,一旦我有了图片,就比较它们。然而,该网站包含大量的文章,需要很长时间才能将每一张蒙古语图片与每一张英语图片进行比较
我如何从两侧绘制文章的地图,并确保它们相互对应
最后,我希望输出文件像
https://gogo.mn/r/2e313,https://mongolia.gogo.mn/r/162466
another_article_en,another_article_mn
目前没有回答
相关问题 更多 >
编程相关推荐