这个 Python 程序使用 BeautifulSoup 爬取网页上的所有文字内容和链接,并将其保存到一个 .txt 文件中。适用于需要爬取中小型网页文本信息和链接的场景。
- 爬取指定网页的 所有文字内容(包含网页中所有文本信息)。
- 爬取并保存网页中的 所有超链接(包括链接的文字和 URL)。
- 将爬取到的信息保存为一个
.txt文件。
- Python 3.x
requests库beautifulsoup4库
在运行程序前,请确保您已安装所需的 Python 库。可以使用以下命令安装:
pip install requests beautifulsoup4-
下载该程序并解压(如果下载的是压缩包)。
-
在终端/命令行中运行以下命令启动程序:
python BSWebInfoGet.py
-
程序启动后,输入您想要爬取的网页 URL(例如:
https://caesaugu.com/hosthatch%E7%91%9E%E5%A3%AB%E8%8B%8F%E9%BB%8E%E4%B8%96vps%E6%B5%8B%E8%AF%84)。 -
程序将会:
- 获取该网页的内容。
- 解析网页上的所有文字和链接。
- 将解析的内容保存到
webpage_full_info.txt文件中。 - 输出网页标题、文本内容和链接(链接包括文字和 URL)到文件中。
程序将输出一个 .txt 文件,其中包含网页的以下内容:
- 网页标题
- 网页的所有文字内容(按段落分隔)
- 网页的所有超链接(包含链接文字及链接 URL)
文件内容示例(webpage_full_info.txt):
网页标题: HostHatch瑞士苏黎世VPS测评 – Caesar小站
网页所有文字内容:
HostHatch瑞士苏黎世VPS测评 – Caesar小站
Caesar小站
HostHatch瑞士苏黎世VPS测评
4 月 1, 2024
网页所有链接:
1. - https://caesaugu.com/
2. Caesar小站 - https://caesaugu.com
3. 4 月 1, 2024 - https://caesaugu.com/hosthatch%e7%91%9e%e5%a3%ab%e8%8b%8f%e9%bb%8e%e4%b8%96vps%e6%b5%8b%e8%af%84/
4. Caesar_311 - https://caesaugu.com/author/caesar_311/
...
-
fetch_webpage(url):
- 使用
requests库发送 GET 请求获取网页 HTML 内容。
- 使用
-
parse_and_save_webpage(html_content, output_file):
- 使用
BeautifulSoup解析网页内容。 - 提取网页标题、所有文本内容和所有链接,并保存到
.txt文件。
- 使用
-
程序输出:
- 网页标题、所有文本和链接信息被按顺序写入文本文件,便于后续处理和分析。
- 爬取他人网站时,请遵守目标网站的服务条款和 robots.txt 文件规定。
- 禁止将此爬虫用于未经授权的数据抓取或非法用途。
- 确保目标网页没有反爬虫机制,或者您已采取适当的反反爬措施。
- 如果遇到 验证码 或 动态加载 内容,可能需要额外处理,例如使用
Selenium等工具来模拟浏览器操作。 - 网页上的图片、视频等多媒体内容未被提取,程序只会提取文本和链接。
该项目使用 MIT 许可证。详情请参见 LICENSE 文件。
- 该程序默认将爬取到的网页内容保存到
webpage_full_info.txt文件,您可以根据需要修改文件名。