要使用Python抓取网页文字,可以使用第三方库requests和BeautifulSoup。

首先,使用requests库发送HTTP请求,获取网页的内容。例如:
import requests
url = "http://example.com"
response = requests.get(url)
html = response.text
然后,使用BeautifulSoup库解析网页的内容,提取出所需的文字。例如:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
text = soup.get_text()
最后,对提取出的文字进行进一步的处理或保存。例如:
# 去除多余的空格和换行符
text = text.strip()
# 打印结果
print(text)
# 将结果保存到文件
with open("text.txt", "w", encoding="utf-8") as file:
file.write(text)
以上是简单的示例,实际应用中可能需要根据网页的结构和需求进行相应的调整。还可以使用其他功能强大的库,如Scrapy,进行更高级的网页抓取。

查看详情

查看详情