<p>我已经用python编写了一个脚本,它能够从网页中获取不同文章的标题,并将它们写入csv文件。由于网站的内容更新非常频繁,我喜欢将新的结果首先附加到csv文件中,那里已经有可用的旧标题列表。你知道吗</p>
<p>我试过:</p>
<pre><code>import csv
import time
import requests
from bs4 import BeautifulSoup
url = "https://stackoverflow.com/questions/tagged/python"
def get_information(url):
response = requests.get(url)
soup = BeautifulSoup(response.content, 'lxml')
for title in soup.select(".summary .question-hyperlink"):
yield title.text
if __name__ == '__main__':
while True:
with open("output.csv","a",newline="") as f:
writer = csv.writer(f)
writer.writerow(['posts'])
for items in get_information(url):
writer.writerow([items])
print(items)
time.sleep(300)
</code></pre>
<p>上面的脚本在运行两次时可以在旧结果之后附加新结果。你知道吗</p>
<p>旧数据如下:</p>
<pre><code>A
F
G
T
</code></pre>
<p>新数据是<code>W</code>、<code>Q</code>、<code>U</code>。你知道吗</p>
<p>当我重新运行脚本时,csv文件应该如下所示:</p>
<pre><code>W
Q
U
A
F
G
T
</code></pre>
<p><strong><em>如何将新结果首先附加到包含旧数据的现有csv文件中?</em></strong></p>