# Python Selenium 爬虫教程

Selenium 是一个强大的工具，可以用来自动化浏览器操作。它常被用于测试网页应用程序，但也可以用来抓取动态网页内容。在本教程中，我们将学习如何使用 Selenium 创建一个简单的爬虫。

## 安装 Selenium

在开始之前，你需要确保已经安装了 Selenium。你可以使用 pip 来安装：

In [None]:
!pip install selenium

## 打开网页

In [80]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 创建一个新的 Chrome 浏览器会话
driver = webdriver.Chrome()

# 让浏览器打开一个网页
driver.get('https://sou.chinanews.com/')


## 等待页面加载完成

在使用 Selenium 进行网页自动化时，等待页面加载是一个常见的需求。除了使用简单的 `time.sleep()` 方法外，Selenium 提供了更为智能和高效的等待方式。以下是几种常用的等待页面加载的方法：

### 隐式等待（Implicit Waits）

隐式等待是告诉 WebDriver 在查找元素时，如果元素没有立即出现，等待一段时间。WebDriver 会在指定的时间内不断地尝试查找元素。一般来说隐式等待是最好用的方法，它在查找到需要的元素后会立即响应，不会造成时间的浪费。

隐式等待只要设置一次，之后对所有的元素查找都有效。

In [81]:
driver.implicitly_wait(3)  # 设置隐式等待时间为10秒

### 强制等待

强制等待是指定程序运行到此处时，必须等待一定时间。强制等待通常用在动态页面的处理，或者等待一定时间降低速率以防被网站屏蔽。你需要明确指定暂停多少秒，这个时间比较难把控，容易造成时间浪费。

强制等待必须每次查找元素前手动执行。

In [20]:
time.sleep(3)

## 操作浏览器

以下代码使用了Selenium的`find_element`方法来查找网页中的元素。`By.XPATH`是查找元素的方式之一，XPATH是一种用于在XML文档中查找信息的语言。在这里，我们使用XPATH来定位网页中的一个输入框，其XPATH为`'//*[@id="q"]'`

找到输入框之后，将字符串`'初音未来'`输入到输入框中。`send_keys`方法用于模拟键盘输入。

In [82]:
input = driver.find_element(By.XPATH, '//*[@id="q"]')
input.send_keys('初音未来')

接着继续找到搜索按钮，然后调用按钮的`click()`方法模拟鼠标点击事件。

In [83]:
search = driver.find_element(By.XPATH, '/html/body/div[2]/form/div/button')
search.click()

## 解析网页

In [74]:
news = []
for element in driver.find_elements(By.XPATH, '//*[@id="rightList"]/div'):
    title_element = element.find_element(By.XPATH, './/a')
    title = title_element.text.strip()
    #print(title)
    url = title_element.get_attribute('href').strip()
    #print(url)
    desc = element.find_element(By.XPATH, 'following-sibling::*[1]//li[@class="news_content"]').text.strip()
    #print(desc)
    #print('----------')
    news.append([title, url, desc, date])
news

[['AI创作新风潮：影视业，拥抱AI新机遇',
  'https://www.chinanews.com.cn/cj/2023/08-28/10068093.shtml',
  '进入新世纪，日本的初音未来、中国的洛天依等二次元虚拟歌手渐渐走进人们的视野，并在年轻人中掀起新的文化风潮。随着技术的革新，数字人的探索也不再只停留在二次元形象上，而是朝着超写实的人类形象发展。\u3000\u3000《神女杂货铺》的“果果”就是一个借助AI技术生成的超写实数字人。',
  '2022-07-05 06:09:20'],
 ['雨中跪地救人的“二次元小姐姐” 是位喜欢动漫的苏州医生',
  'https://www.chinanews.com.cn/sh/2023/07-26/10049675.shtml',
  '张欣羽告诉记者，她比较喜欢cosplay《初音未来》里面的角色，所以在她的社交账号上，经常能看到她梳着两条青色马尾的形象，十分可爱。\u3000\u3000如今，张欣羽工作日在医院上班，周末会参加一些二次元的商演，“主要是因为自己喜欢，我喜欢舞台，喜欢做自己喜欢的事情。',
  '2022-07-05 06:09:20'],
 ['首批AI克隆明星上线，不只是娱乐业“躺赚”',
  'https://www.chinanews.com.cn/sh/2023/06-05/10019224.shtml',
  '例如，初音未来等虚拟偶像早已展示了新的数字技术对文娱行业的冲击，而在元宇宙等概念成为风口之后，借助AI技术实现的虚拟恋人等主打社交和精神陪伴的产品也蜂拥而至。\u3000\u3000此次引发争议的“AI克隆人”，本质上依然属于数字虚拟人经济的一部分。',
  '2022-07-05 06:09:20'],
 ['“10后”的流行密语你能对上几个？',
  'https://www.chinanews.com.cn/sh/2023/06-01/10017432.shtml',
  '记者在采访中发现，“10后”的音乐歌单呈现多元化特点，无论是耳熟能详的经典音乐、当下最新的华语流行音乐，还是二次元动漫歌曲、日韩流行歌曲、影视剧插曲、初音未来等虚拟偶像演唱的流行歌曲等都有对应的“10后”听众群。',
  '2022-07-05 06:09:20'],
 ['（经济

In [84]:
# 点击所有标题
for link in driver.find_elements(By.XPATH, '//div[@class="news_title"]/a'):
    link.click()

In [53]:
# 跳转下一页
driver.find_element(By.XPATH, '//span[@class="thispage"]/following-sibling::*[1]').click()

In [86]:
import requests

url = 'https://sou.chinanews.com/search/news'
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'en-US,en;q=0.9',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Origin': 'https://sou.chinanews.com',
    'Referer': 'https://sou.chinanews.com/search/news',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Not?A_Brand";v="99", "Chromium";v="130"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Linux"',
}

data = {
    'q': '初音未来',  # 这里是 URL 编码后的查询字符串
    'searchField': 'all',
    'sortType': 'time',
    'dateType': 'all',
    'startDate': '',
    'endDate': '',
    'channel': 'all',
    'editor': '',
    'shouQiFlag': 'show',
    'pageNum': '1',
}

response = requests.post(url, headers=headers, data=data)

In [110]:
from lxml import etree

response = requests.get('https://www.chinanews.com.cn/cj/2023/08-28/10068093.shtml', headers=headers)
response.encoding = 'utf-8'
# 解析HTML
html_tree = etree.HTML(response.text)

# 使用XPath提取数据
titls = html_tree.xpath('//h1/text()')  # 提取所有h1标签的文本
paragraphs = html_tree.xpath('//div[@class="left_zw"]//text()')  # 提取所有p标签的文本

# 输出结果
print("标题:", titls[0].strip())


print("\n段落:")
for paragraph in paragraphs:
    print(paragraph)

标题: AI创作新风潮：影视业，拥抱AI新机遇

段落:

                            　　前不久，一部以元宇宙为概念的国潮微短剧《神女杂货铺》在某视频平台播出，讲述了一个现代女孩穿越进游戏的奇幻故事。虽然这不是一部“爆款剧”，但剧中一位演员却引起大家的关注，那就是数字人“果果”。和以往的数字人相比，这一次，“果果”在影视作品中完成了她的出道首秀。不点破她的身份，观众甚至难以察觉她是“非人类”演员。
　　近年来，AIGC(人工智能生成内容)的浪潮正席卷与内容生产有关的各行各业，影视行业亦不例外。数字人“果果”在影视剧中的出演，是人工智能赋能影视产业的又一努力成果，让人们得以窥探人工智能在影视领域的最新应用与拓展。





　　“AI演员”与真人演员难以分辨？
　　1982年，日本动画《超时空要塞》以角色林明美为基础，包装诞生了世界上第一位虚拟歌手。进入新世纪，日本的初音未来、中国的洛天依等二次元虚拟歌手渐渐走进人们的视野，并在年轻人中掀起新的文化风潮。随着技术的革新，数字人的探索也不再只停留在二次元形象上，而是朝着超写实的人类形象发展。
　　《神女杂货铺》的“果果”就是一个借助AI技术生成的超写实数字人。“她是采用先进的AI技术‘换脸’而成的虚拟演员，看上去就好像是真的演员在出演这个角色一样。”《神女杂货铺》总制片人陈洪伟说。
　　此前，超写实数字人在影视作品并不罕见，但大多通过CG(计算机动画)生成，如《阿凡达》中的人物和《速度与激情7》中“复活”的保罗·沃克，都是这类数字人。那么，此前的数字人，和“果果”这种超写实数字人有什么不同？
　　陈洪伟进一步介绍：“这两者最大的区别在于，此前影视作品里的数字人，主要依托真人演员的外形，通过CG技术进行分析、扫描、建模；而“果果”这种超写实数字人，完全没有真人的外形依托，而是将AI算法与CG技术结合，通过想象和理解来构建形象，从而产生一个全新的、世界上本来并不存在的人。”
　　2022年，中国传媒大学媒体融合与传播国家重点实验室媒体大数据中心等发布的《中国虚拟数字人影响力指数报告》显示，目前中国虚拟数字人在应用上主要有身份型(如真人虚拟分身)、服务型(如虚拟员工)、表演型(如虚拟偶像)三大类。虚拟演员并不在其列，可见在影视产业中应用并不广泛。
　　2022年，电视剧《二十不惑2》中使用了虚拟演