台湾34家流媒体的政治新闻爬虫。

Taiwan-News-Crawler的Python项目详细描述



标题:“台湾新闻爬虫” 题目:哈克姆

GitHubhttps://github.com/milkpool/Taiwan_News_Crawler

infopythonpython

pyplhttps://pypi.org/project/Taiwan_News_Crawler/

info

简介

这个开源图书馆是34家台湾主流媒体的政治新闻爬虫。 已爬网的媒体如下所示。在

Media TypeMeida Name (CN)Media Name (EN)IDAbbreviation
Print Media自由時報Liberty News0ltn
Print Media蘋果日報Apple Daily1appledaily
Print Media聯合報UDN News2udn
Print Media中國時報China Times3chinatimes
Broadcast MediaTVBSTVBS4tvbs
Broadcast MediaETtodayETtoday5ettoday
Broadcast Media台視TTV6ttv
Broadcast Media中視CTV7ctv
Broadcast Media華視CTS8cts
Broadcast Media民視FTV News9ftv
Broadcast Media公視PTS10pts
Broadcast Media三立新聞STEN11sten
Broadcast Media中天新聞CTITV12ctitv
Broadcast Media年代新聞ERA News13era
Broadcast Media非凡新聞USTV14ustv
Electronic Media中央通訊社CNA15cna
Electronic Media關鍵評論網The News Lens16thenewslens
Electronic Media民報People News17peoplenews
Electronic Media上報Up Media18upmedia
Electronic Media大紀元Epoch Times19epochtimes
Electronic Media信傳媒CM Media20cmmedia
Electronic Media匯流新聞網CNEWS21cnews
Electronic Media新頭殼Newtalk22newtalk
Electronic Media風傳媒Storm Media23storm
Electronic Media今日新聞NOW News24nownews
Electronic Media鏡週刊Mirror Media25mirrormedia
Electronic Media台灣好新聞Taiwan Hot26taiwanhot
Electronic Media中央廣播電台RTI News27rti
Electronic Media世界日報World Journal28worldjournal
Electronic Media風向新聞Kairos News29kairos
Electronic Media民眾日報Mypeople News30mypeople
Electronic Media芋傳媒Taro News31taronews
News WebsitePchome新聞Pchome News32pchome
News WebsiteYahoo!奇摩新聞YAHOO! News33yahoo

安装

1。使用pip安装库软件包。

pip install Taiwan_News_Crawler

2。在official website上下载Chrome的webdriver。

使用

1。用输入的webdriver路径构建一个爬虫程序。

^{pr2}$

2。抓取某些媒体的政治新闻。

crawler_news使用指定的媒体id或名称对最新新闻进行爬网。 有两个参数要输入:

  • media:int/str,需要对媒体id或名称进行爬网
  • amount:int,爬网新闻的数量。默认数字是20。在
## Crawl new with media idnews_id_0=mycrawler.crawler_news(media=0)## Crawl new with media namenews_ltn=mycrawler.crawler_news(media='ltn',amount=10)news_udn=mycrawler.crawler_news(media="聯合報",amount=50)

3。用新闻网址搜索政治新闻。

crawler_by_url使用url标识新闻媒体并获取信息。 url参数是一个字符串列表。可以使用不同媒体的Url。在

news=mycrawler.crawler_by_url(url=['NEWS_URL_1','NEWS_URL_2'])

4。打印爬网新闻。

我们的爬虫程序的输出是json格式的。 输出的字段如下所示:

  • title:str,新闻标题
  • url:str,新闻的完整url
  • author:list,新闻作者。可能不止一个作者。如果不可用,则显示为空列表。在
  • time:list,发布时间。
    • 时间(str):完整的发布时间。例如,“2020/01/10 13:17”
    • 时间年(str):发布的年份。例如“2020年”
    • time_month(str):发布的月份。例如“01”
    • 时间日(str):发布的日期。例如“10”
    • time_hour_min(str):发布的计时。例如“13:17”
  • context:str,新闻文章。在
  • tag:list,新闻的标签。空列表不可用。可以有多个标记。在
  • related_news:列出媒体提供的相关或推荐新闻。
    • 相关标题:str,相关新闻的标题。在
    • 相关的网址:str,相关新闻的网址链接。在
  • source\img:列出报告中的图片。
    • 图片标题:str,相关新闻标题。没有,因为不可用。在
    • img_url:str,相关新闻的url链接。在
  • sourcce_video:列表,报告中的视频。
    • 视频标题:str,thr video title。没有,因为不可用。在
    • 视频链接。在
news_ltn=mycrawler.crawler_news(media='CTS',amount=10)# print the first news informationnews_no_1=news_ltn[0]forkey,valueinnew_no_1.items():print(key)print(value)print()
title
'菲律賓禁台令 總統:若政治考量請三思'

url
'https://news.cts.com.tw/cts/politics/202002/202002141990582.html'


author
[u'陳詩雅', u'李鴻杰']

time
[{'time_day': '14', 'time_hour_min': '19:39', 'time_year': '2020', 'time_month': '02', 'time': '2020/02/14 19:39'}]

context
'華視新聞 陳詩雅 李鴻杰 台南報導  / 台南市面對武漢肺炎疫情,總統蔡英文、行政院長蘇貞昌和副院長陳其邁,今(14)日分頭前進工廠視察。總統下午就南下視察防疫用酒精生產。面對菲律賓發出禁台令,總統表示,若是因為政治考量,要求菲律賓三思,台灣不能容忍這樣的事情,也必然會有相應的處理,最新消息,菲律賓已經撤回對台灣的禁令。75度防疫酒精台酒一天就可以產20萬瓶,面對武漢肺癌疫情,總統蔡英文再度前進工廠生產線,這次看的是酒精,成為70年來,第一位造訪台南隆田酒廠的現任總統,目前酒精產量穩定,可以支撐現階段需求,不過防疫戰火延燒到菲律賓,對於菲律賓在10日無預警禁止台灣人入境,總統說如果是政治考量菲律賓要三思。總統 蔡英文:「如果是基於政治考量的話,我們就要請他們三思,因為我們不能夠容忍這樣的事情,也必然會有一些相應的處理,」在總統受訪之後,菲律賓在晚間取消對台禁令,記者 vs. 總統 蔡英文:「台灣最紅的小孩子就是小明。」總統一聽到小明忍不住笑了,但是又立刻收起微笑,因為被問到對於無我國國籍中配子女禁止入境,馬前總統PO文說不要讓歧視凌駕人道,總統 蔡英文:「這沒有歧視的問題,只有疫情處理跟疫情掌控,跟保護我們國人的健康,是最重要的原則,我是覺得既然已經做過總統,應該知道說在做一個相關的決策,現在所最重要的還是以疫情的掌控為最優先」,另外還有國人滯留湖北,總統則再次強調,弱勢優先檢疫優先兩大原則,會持續溝通。'

tag
[u'撤回禁令', u'菲律賓', u'蔡英文', u'酒精', u'武漢肺炎']

related_news
[{u'好消息! 傳菲將解除對台灣旅行禁令': 'https://news.cts.com.tw/cts/politics/202002/202002141990583.html'}, {u'菲律賓發布禁台令 對移工衝擊大': 'https://news.cts.com.tw/cts/international/202002/202002131990465.html'}, {u'菲律賓禁台入境 我方擬祭出反制': 'https://news.cts.com.tw/cts/international/202002/202002131990381.html'}, {u'菲內閣重議禁台措施 我研擬反擊': 'https://news.cts.com.tw/cts/international/202002/202002131990380.html'}, {u'出國怕被誤認 「來自台灣」小物熱賣': 'https://news.cts.com.tw/cts/general/202002/202002121990318.html'}, {u'菲律賓突發禁台令 台灣恐爆缺工潮': 'https://news.cts.com.tw/cts/society/202002/202002121990317.html'}, {u'菲禁令滯留長灘島 部落客:如歷險記': 'https://news.cts.com.tw/cts/society/202002/202002121990316.html'}, {u'菲禁台團入境 當地旅遊業損失逾50萬': 'https://news.cts.com.tw/cts/society/202002/202002121990257.html'}, {u'禁台入境轉折 外交部:菲國內部不同調': 'https://news.cts.com.tw/cts/general/202002/202002111990194.html'}, {u'菲禁台客入境 旅客到機場無法登機': 'https://news.cts.com.tw/cts/international/202002/202002111990193.html'}, {u'菲律賓移工無法入台 勞動部祭出因應措施': 'https://news.cts.com.tw/cts/life/202002/202002111990179.html'}, {u'菲遵循「一個中國」 國民黨:政府應強硬展立場並反制': 'https://news.cts.com.tw/cts/politics/202002/202002111990154.html'}]

source_img
[{None: 'https://news.cts.com.tw/photo/cts/202002/202002141990582_l.jpg'}]

source_video
[{None: 'https://www.youtube.com/embed/6cV1YNTOjyI?rel=0&playsinline=1'}]

media
'華視'

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java实现双锁并发队列   java如何更改SpringWS 2.4.4版或更高版本中maxOccurs的默认限制?   java Selenium RC如何处理动态行?   java何时引入Javac StringBuilder/StringBuffer优化?   java mediaplayer在R.raw Android上失败   java JPA2:不区分大小写,就像在任何地方匹配一样   如何从JDK15中提取java预览类文件?   java与mySQL删除查询不一致   从Shutdownow()返回的java列表<Runnable>无法转换为提交的Runnable   java如何从回调接口获取对象值?   java如何获得视图的高度,在xml中可见性和高度定义为wrap_内容?   postgresql Mybatis在启动时遇到“由以下原因引起:java.net.UnknownHostException:localhost”,为什么?   带有实例调用的方法调用的java intellij格式化程序换行   由于特定的第三方库,java Proguard产生运行时错误   动画JAVA JPanel同时滑出和滑入