从OLX Indonesia下载小型广告列表

olxsearch的Python项目详细描述


从OLX列表下载数据

这是一个Python脚本,可以从以下国家的小型广告平台OLX下载列表:

  • 阿根廷
  • 保加利亚
  • 波斯尼亚
  • 巴西
  • 哥伦比亚
  • 哥斯达黎加
  • 厄瓜多尔
  • 埃及
  • 危地马拉
  • 印度
  • 印度尼西亚
  • 哈萨克斯坦
  • 黎巴嫩
  • 阿曼
  • 巴基斯坦
  • 巴拿马
  • 秘鲁
  • 波兰
  • 葡萄牙
  • 罗马尼亚
  • 圣萨尔瓦多
  • 南非
  • 乌克兰
  • 乌兹别克斯坦

如果您使用olxsearch进行科学研究,请在您的出版物中引用它:
Fink,C.(2020):olxsearch:Python脚本下载OLX小广告数据doi:10.5281/zenodo.3906038。在

依赖性

这个脚本是用python3编写的,它依赖于Python模块BeautifulSoupdateparsergeocoderpandas和{a6}。在

要在基于Debian的系统上安装依赖项,请运行:

apt-get update -y &&
apt-get install -y python3-dev python3-pip python3-virtualenv

(有一个archlinuxaur包将所有依赖项拉入,请参阅下面的内容)

安装

  • 使用pip或类似的:
^{pr2}$
  • 或:手动:

    • 克隆此存储库
    git clone https://gitlab.com/christoph.fink/olxsearch.git
    
    • 切换到克隆目录
    • 使用Pythonsetuptools安装包:
    cd olxsearch
    python3 ./setup.py install
    
  • {

# e.g. using yay
yay python-olxsearch

用法

导入olxsearch模块。在

然后实例化一个olxsearch.OlxSearch对象,提供一个country和一个search_term作为参数。对象的listings属性是一个生成器,提供对平台上列出的与所提供的搜索项匹配的每个广告的访问。它的listings_as_dataframe属性是一个包含所有这些广告的pandas.DataFrame。在

importolxsearcholx_search_argentina=olxsearch.OlxSearch("Argentina","Yerba mate")print(next(olx_search_argentina.listings))# {'id': '1102114778', 'title': 'YERBA MATE SECADERO X 500 GRS.', 'description': 'YERBA MATE SECADERO \nPAQUETE X 500 GRS. $70\nPACK X 10 UNIDADES VENTA MÍNIMA\nCALIDAD DE EXPORTACIÓN \nEXCELENTE RELACIÓN PRECIO * CALIDAD \nAPROVECHE ANTES QUE SE TERMINEN\nCOMUNÍQUESE A NUESTRO WHATSAPP', 'created_at': '2020-02-18T16:57:38-03:00', 'created_at_first': '2020-02-18T16:57:02-03:00', 'republish_date': None, 'images': ['https://apollo-virginia.akamaized.net:443/v1/files/ns52s6zc369y2-AR/image'], 'price': (70.0, 'ARS'), 'lat': -34.626, 'lon': -58.4}# pandas DataFrameolx_search_southafrica=olxsearch.OlxSearch("South Africa","Biltong")listings=olx_search_southafrica.listings_as_dataframe#             id                                              title  ...        lat        lon# 0   1061464181                                     Biltong slicer  ... -25.703179  28.178248# 1   1061707900         Claasen Biltong Slicer excellent condition  ... -28.549999  25.233299# 2   1061884723                                      Biltong maker  ... -26.701476  27.092649# ...# 38  1061429395                                      Biltong snyer  ... -29.082081  26.148292# 39  1059714562  Biltongkas / biltong box / biltong dryers / me...  ... -25.712152  28.002048# # [40 rows x 10 columns]

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java启动时加载值示例代码(xml)   java什么是视图索引?当视图组将视图添加到索引1时会发生什么   java如何调用HttpUrlConnection disconnect()   java将日期转换为毫秒,givse错误结果   java正在处理“.”上的IP地址拆分字符串性格   java proguard不创建输出jar   编译中的Java默认修饰符   java中的管道I/O流   java为集合返回的最佳迭代器类型?拆分器,流?   java如何修改JTextArea中tab键的行为?   来自Android Studio HTML文档的外部应用程序中的java Open Local PDF   组件和轻量级/重量级之间的java差异   java在有向图中查找模式   python可以创建运行服务器端程序的Java Web Start应用程序吗?   NiFi中基于内容的java更新属性