一个简单的分布式网络爬虫

simplified-scrap的Python项目详细描述


简化肉屑

简化的scrapy,一个简单的网络爬虫

要求

  • Python 2.7,3.0+
  • 适用于Linux、Windows、Mac OSX、BSD

from simplified_scrapy.simplified_main import SimplifiedMain
SimplifiedMain.startThread()

演示

自定义爬虫类需要扩展Spider类

^{pr2}$

下面是一个收集数据的示例

from simplified_scrapy import Spider, SimplifiedDoc, SimplifiedMain
class DemoSpider(Spider):
  name = 'demo-spider'
  start_urls = ['http://quotes.toscrape.com/']
  allowed_domains = ['www.toscrape.com']
  def extract(self, url, html, models, modelNames):
    doc = SimplifiedDoc(html)
    lstA = doc.listA(url=url["url"])
    return [{"Urls": lstA, "Data": None}]

SimplifiedMain.startThread(DemoSpider())

pip安装

pip install simplified-scrapy

Examples

法律问题

特别是,请注意

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

翻译成人类语言:

如果您使用本软件构成侵犯版权的依据,或您将本软件用于任何其他非法目的,作者不承担任何责任。在

我们只在这里发布代码,您将如何使用它由您自己决定。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java无法使用JAXB配置Moxy   java如何让我的简单Swing telnet客户端正确显示字符?   java中从可运行线程调用主线程的多线程处理   java数据源。EBJ3会话bean中的getConnection()   使用java和正则表达式从xml文件提取值时出现问题   java定制Jersy胡须Mvc   在Java中,“限制并发”是什么意思?   java有没有更干净的方法可以在这里使用Optional,而不在三个地方返回“NA”?   java Tomcat启动,然后崩溃,除非我打电话   java理解客户机和服务器   java时间戳将在视图对象>实体转换期间丢失   如何在java中返回布尔值(基元)?   java使用spring mvc设置日志记录,希望仅对我的代码进行跟踪/调试   用Jackson解析嵌套对象