Python爬虫-Xpath模块

3月 8, 2020

安装Requests模块

pip install lxml

Xpath表达式规则

普通字符 正则匹配
/ 逐层提取
text() 提取标签下面的文本
//标签名** 提取所有名为**的标签
//标签名[@属性=’属性值’] 提取属性为xx的标签
@属性名 代表取某个属性值

小案例-匹配豆瓣影视介绍

# 导入包
import requests
from lxml import etree

# 构造url,user-agent请求头参数部分
ua = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}
url = 'https://movie.douban.com/subject/25887288/'

# 向指定的url发送get含有参数的请求
response = requests.get(url,headers=ua)

# 返回网站对象
res = response.text
# 生成选择器对象
html = etree.HTML(res)
# 匹配对象
pat = '//span[@property="v:summary"]/text()'
# 匹配
data = html.xpath(pat)
# 遍历数组
for i in data:
    #处理空格
    result = i.strip()
    print(result)