要创建 Python 网络爬虫,您可以使用流行的库,例如 Requests 和 BeautifulSoup。 下面是一个简单的网络爬虫示例,用于抓取网站上的标题和链接:
首先,确保您已安装所需的库。 通过从命令行运行以下命令来安装它:
pip install request beautifulsoup4
接下来,simple_crawler.py 的文件,并在其中写入以下代码。
从请求导入
bs4 导入 BeautifulSoup
def get_page(url) :
响应 = request.get(url)
如果response.status_code == 200:
返回 response.text
其他:
打印(f"错误:无法检索页面状态代码:{response.status_code}")
返回 无
def parse_page(html):
Soup = BeautifulSoup(html, " html.parser")
title =Soup.find_all("h2" ) #网站中的标题标签
links =Soup.find_all("a")
for 标题,链接 zip(标题、链接) :
打印(title.get_text(), link["href"])
def main ():
url = 输入("要抓取的网站URL 请输入:")
html = get_page(url)
if html:
parse_page(html)
if __name__ == "__main__":
main()
这个简单的网络爬虫首先从用户处获取要爬取的网站的URL,然后使用requests库获取HT。机器学习内容。 接下来,使用 BeautifulSoup 解析 HTML 并提取所有
标签的文本(这通常是标题)和所有
标签的 href 属性。 (通常这是一个链接)。 最后输出提取的标题和链接。
请注意,此示例仅适用于具有特定 HTML 结构的网站。 要与其他网站配合使用,您必须根据目标网站的 HTML 结构更改 parse_page
函数中的代码。 您可以使用浏览器的开发人员工具(按 F12 打开)来检查页面元素并找到正确的标签和属性。
以上内容来源于互联网,不代表本站全部观点。 欢迎关注:zhujipindao.com
评论前必须登录!
注册