一个基于gevent的简单instagram标签爬虫程序

insta-hashtag-crawler的Python项目详细描述


入门

支持的平台

insta_hashtag_crawler已经在以下平台上进行了测试:

  • OS:Ubuntu 17.04 LTS,Windows 10
  • Python:cPython>;=3.6

安装

通过pip(推荐)

  • 当python3是系统上唯一安装的python发行版时:
pip install insta_hashtag_crawler
  • ,包含多个版本的python发行版:
    (将python3替换为所需版本)
^{pr2}$
  • 使用venv:
    • 在Linux上
python3 -m venv .venv
source .venv/bin/activate
pip install insta_hashtag_crawler
  • 在Windows上
python3 -m venv .venv
cd .venv/Scripts
activate
pip install insta_hashtag_crawler

通过setup.py

git clone https://gitlab.com/point1304/insta_hashtag_crawler.git
cd insta_hashtag_crawler
python3 setup.py bdist
python3 setup.py install

如何

insta_hashtag_crawler附带了一个非常简单的命令行工具
这就是你要利用的。在

您可以使用以下命令立即开始对shell进行爬网:

insta-crawl your-hashtag

此命令将在
中生成一系列csv格式的数据 “当前工作目录”。 csv文件名为:${hashtag}yyyymmdd(${number}).csv

可选参数

  • [--dir][-d]
    您可以设置生成爬网结果的目录
    通过使用[--dir][-d]选项。
    [--dir]选项可以将绝对路径或相对路径作为参数。在
insta-crawl --dir /some/path/to/dir hashtag
insta-crawl --dir some/relative/path hashtag
  • [--安静][-q]
    如果要禁用爬网日志,
    默认情况下指向stdout。 此选项将把所有日志重定向到与操作系统相关的dev/null。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
检查java中两个链表之间的子集   java仅在findViewById()下显示一个ImageButton   在Java Graphics2D中,文本如何在矩形上居中对齐?   java需要一个用于电子表格计算器的正则表达式   ^java中的运算符   java通过一些属性配置文件根据环境动态更改wsdl端点URL   java Ebean/Play框架关系未更新   集合如何将POJO列表转换为Java流中的映射<String,List>?   java为什么JFrame不显示整个图像?   java如何将调用静态导入的泛型方法的结果传递给另一个方法?   迭代器或foreach中的java延迟   需要java socket logback日志接收器   在Java中初始化Map的静态数组   雅加达邮件Java MimeMail:解码后获得额外字符   java为什么这个xmldom解析器不能正确解析rtept、name和cmt标记?   java如何刷新Log4J2中的异步记录器(带中断器)   java使用构建插件pom生成的jar。xml作为同一pom中的依赖项   java基于位置的序列ADT如何在O(1)时间内插入元素?   java ORM实体与DDD实体   Java对象分配