新闻爬虫一个图书馆来抓取网上报纸文章

NewsCrawler3的Python项目详细描述


新闻爬虫

Build StatusPyPI versionCoverage Status

NewsCrawler是一个Python库,用于抓取在线报纸文章。它有一个最小的接口,以确保以最小的工作量实现最大的生产率。在

基于流行的库:Newspaper3kBeautifulSoup4和{a6}

入门

要安装此库,请克隆存储库,转到项目的根目录,然后运行:

git clone https://github.com/NewsPipe/NewsCrawler.git
pip install .

或者,您可以通过以下方式从PyPI存储库安装此库:

^{pr2}$

示例

>>> from newscrawler import Crawler

>>> crawler = Crawler("zeit.de")
>>> crawler.get_article_information_as_dataframe()
                                        title  ...                                               text
0     Wolf Biermann: Wolf, hast du Angst vor dem Tod?  ...  Dass der Liedermacher Wolf Biermann noch am Le...
1              Österreich: Sie wollen doch nur helfen  ...  Wenn Wien und die ÖVP aufeinandertreffen, dann...
2                 Psychologie: Du darfst dich schämen  ...  Wozu, bitte, soll das gut sein? Das Gesicht lä...
3   Fleischindustrie in Uruguay: 150 Kilo Gewichts...  ...  So muss das Rinderparadies sein: saftig grüne ...
4   Homeschooling: Eine gerechte Note ist nicht mö...  ...  Gut zwölf Wochen Fernunterricht haben die Schü...
5        Vegane Ernährung: Fast schon so was wie Käse  ...  Auf einer aufgebockten Holzplatte hat Nour Akb...
6   Corona-Pandemie: Spanien will den Ausnahmezust...  ...  In Spanien will die Regierung den umstrittenen...
7   Bundesliga, 29. Spieltag: Gladbach klettert mi...  ...  Borussia Mönchengladbach — 1. FC Union Berlin ...
8   SpaceX: Crew-Dragon-Raumkapsel dockt erfolgrei...  ...  Nach etwa 19 Stunden Reise haben die beiden US...
9   Wetter und Viren: Hey Sommer, gib Corona den R...  ...  Der Sommer ist ein natürlicher Feind vieler Vi...
10     Fußball: Premier League darf Saison fortsetzen  ...  Die Premier League darf die Saison nach einer ...
11  Open-Source-Projekt: Entwickler veröffentliche...  ...  Die Entwickler der Corona-Warn-App der Bundesr...
12  Dietzenbach: Nach Angriff auf Beamte Polizei o...  ...  Nachdem am vergangenen Freitag Einsatzkräfte i...
13  Gymnastiklehrerin: "Meine Perspektive: stilvol...  ...  Der Ausbruch des Coronavirus verändert für vie...
14  Bürgerkriegsflüchtlinge: Obergrenze für Famili...  ...  Die Obergrenze für den Familiennachzug von sub...
[15 rows x 7 columns]


>>> crawler.get_article_information_as_dataframe().keys()
Index(['title', 'summary', 'author', 'published', 'link', 'tags', 'text'], dtype='object')

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java连接在一个屏幕上成功下载,在第二个屏幕上用几乎相同的代码获得错误   java调用super。超级的方法,跳过超级。方法   使用Web服务连接到sharepoint 2013的Java应用程序   java我无法正确呈现editText   httpurlconnection如何在java中检查url连接状态   java Spring Security可以为同一用户接受多个密码吗?   java如何在PreparedStatement中使用自动生成的@Id?   java每个数组表示一个位模式   java我不确定如何记录鼠标在某个区域被点击的次数   spring如何解决:java。lang.NoSuchMethodError:javax。坚持不懈实体管理器。createStoredProcedureQuery(Ljava/lang/String;)   java如何为blackberry中listfield项内的不同字段触发事件   安卓使用Proguard混淆java代码   java在grails 2中与多个数据源有一个和一个域关联。十、   java在尝试在单击按钮时返回combobox值时一直出错   java我可以在setter中使用@Resource注释而不是字段吗?   java Eclipse调试步进不工作   java比较相同对象的两个表并选择不同的表