收集财富500强公司的信息

1条回答

网友

1楼 · 发布于 2024-04-26 13:57:51

首先，您需要获得postid，然后向/data/franchise-list发出请求，然后从第一篇文章中获取url:

import json
import re
from urllib2 import urlopen
from urlparse import urljoin
from bs4 import BeautifulSoup

data = urlopen('http://fortune.com/fortune500/')
soup = BeautifulSoup(data)
postid = next(attr for attr in soup.body['class'] if attr.startswith('postid'))
postid = re.match(r'postid-(\d+)', postid).group(1)

url = "http://fortune.com/data/franchise-list/{postid}/1/".format(postid=postid)
data = json.load(urlopen(url))

resulting_url = urljoin(url, data['articles'][0]['url'])
print resulting_url

印刷品：

^{pr2}$

编程相关推荐

从文本文件中读取时显示java符号“ï»”
java在有很多生产商的情况下如何改进Disruptor？
不同线程的java不同堆栈
用Java模拟oraclespool
jsp java访问自定义web中的错误信息。xml错误页
给出奇怪结果的java集成堆栈
java在jsp中显示值列表
java会话。保存更新具有错误ID的实体
在树数据结构中添加节点时的java递归
java在Spring Data Mongodb中使用$$ROOT检索整个文档

相关问题更多 >

编程相关推荐

热门问题

热门文章

收集财富500强公司的信息

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >