我目前正在开发一个类似scraper的程序,它将进入一个Wikipedia页面,并且以其当前的形式,将从页面中获取引用。在
我想要一个gui,允许用户输入Wikipedia页面。我希望输入附加到selectWikiPage
变量,但是到目前为止还没有运气。在
下面是我当前的代码。在
import requests
from bs4 import BeautifulSoup
import re
from tkinter import *
#begin tkinter gui
def show_entry_fields():
print("Wikipedia URL: %s" % (e1.get()))
e1.delete(0,END)
master = Tk()
Label(master, text="Wikipedia URL").grid(row=0)
e1 = Entry(master)
e1.insert(10,"http://en.wikipedia.org/wiki/randomness")
e1.grid(row=0, column=1)
Button(master, text='Scrape', command=master.quit).grid(row=3, column=0, sticky=W, pady=4)
mainloop( )
session = requests.Session()
selectWikiPage = input(print("Please enter the Wikipedia page you wish to scrape from"))
if "wikipedia" in selectWikiPage:
html = session.post(selectWikiPage)
bsObj = BeautifulSoup(html.text, "html.parser")
findReferences = bsObj.find('ol', {'class': 'references'}) #isolate refereces section of page
href = BeautifulSoup(str(findReferences), "html.parser")
links = [a["href"] for a in href.find_all("a", href=True)]
for link in links:
print("Link: " + link)
else:
print("Error: Please enter a valid Wikipedia URL")
提前致谢。在
代码几乎是正确的。稍加修改就足够了。希望这有帮助。如需进一步澄清,请发表意见。在
下面是一个基于您的代码的小示例;它允许使用entry字段捕获要访问的wiki页面的值,并将其打印到控制台上。
然后,您可以使用此url继续进行抓取。在
相关问题 更多 >
编程相关推荐