Facebook页面详情与RESTful API?
你好,我有一份Facebook页面的网址列表。
eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...
请问有什么好的方法来:
检查这些网址是否确实是Facebook页面,而不是个人资料
从这些页面收集一些信息,比如粉丝数量
非常感谢你的帮助。
4 个回答
1
粉丝数量在一个带有'FanManager'类的标签里。你可以使用Beautiful Soup这个工具来获取这个标签里的内容,然后用正则表达式从字符串中提取数据(比如:1,000,000粉丝)并把它转成整数或者你想要的其他格式。
要检查页面是否存在,可以查看一些标签,看看你是否在404页面上。
2
可以使用 urllib2 或者 pyfacebook 来获取内容。
然后,使用 BeautifulSoup 或者 lxml 来解析这些内容。
最后,利用 re 模块(正则表达式)来提取你需要的信息,以便进行验证和数据收集。
3
在不抓取任何内容的情况下(这本身就违反了Facebook的服务条款):
- 提取网址中的用户名部分,也就是在 www.facebook.com/后面的那一部分。
- 执行一个FQL查询,格式是
select fan_count from page where username='michaeljackson'
- 如果有结果返回,那就说明这是一个页面,而不是用户的个人资料。
可以查看 Page FQL表格,了解在同一次调用中可以获取的其他数据。