安装Requests模块
pip install lxml
Xpath表达式规则
普通字符 |
正则匹配 |
/ |
逐层提取 |
text() |
提取标签下面的文本 |
//标签名** |
提取所有名为**的标签 |
//标签名[@属性=’属性值’] |
提取属性为xx的标签 |
@属性名 |
代表取某个属性值 |
小案例-匹配豆瓣影视介绍
# 导入包
import requests
from lxml import etree
# 构造url,user-agent请求头参数部分
ua = {
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}
url = 'https://movie.douban.com/subject/25887288/'
# 向指定的url发送get含有参数的请求
response = requests.get(url,headers=ua)
# 返回网站对象
res = response.text
# 生成选择器对象
html = etree.HTML(res)
# 匹配对象
pat = '//span[@property="v:summary"]/text()'
# 匹配
data = html.xpath(pat)
# 遍历数组
for i in data:
#处理空格
result = i.strip()
print(result)