问题描述:
做爬虫的过程中经常需要对html标签的文字内容进行提取,有几种情况
1.提取属性的值,2.提取标签的值,3.提取段落的所有文字
本文用的是 scrapy 的框架,用 response 做响应
1.提取属性的值
<a title="这是一个标题">
response.xpath("//a/@title").get(),可以直接得到 title 的值为:这是一个标题
注:get 方法是等同于extract()[0],getall 方法等同于extract()
官方文档1.5以后推荐使用 get 系列方法代替原来的 extract 系列方法
两种方法可以同时使用,看个人喜好
2.提取标签的值
<a title="这是一个标题">这才是标题</a>
response.xpath("//a/text()").get(),可以得到 a 标签的值:这才是标题
3.提取段落所有文字
<div class="test">
<a>左青龙</a>
<a>右白虎</a>
<a>
<span>老牛在当中</span>
</a>
<ul>
<ul>
<span>龙头在胸口</span>
</ul>
</ul>
</div>
response.xpath("//div[@class='test']").get()
这种方式可以得到值为 test 的 div 标签下的所有标签组,即:
<a>左青龙</a>
<a>右白虎</a>
<a>
<span>老牛在当中</span>
</a>
<ul>
<ul>
<span>龙头在胸口</span>
</ul>
</ul>
浏览器展示是没问题的,但是我们需要纯文字用于匹配
为了去除标签,需要加一个 string 的方法,即:
response.xpath("string(//div[@class='test'])").get(),这样可以获取纯文字:
左青龙右白虎老牛在当中龙头在胸口
4.html 类型的字符串清除 html 标签
这是对3的补充,给个栗子
某次返回直接给一个html类型的字符串,记住是字符串,不是从response获取到的
返回json
{"title": 这是标题,
"content":"<div class='test'>
<a>左青龙</a>
<a>右白虎</a>
<a>
<span>老牛在当中</span>
</a>
<ul>
<ul>
<span>龙头在胸口</span>
</ul>
</ul>
</div>"}
这时候response.body是一个json结构体,直接用xpath不行的,所以需要做一个转换
import json
from scrapy import Selector
json_content = json.loads(response.body)["content"]
content = Selector(text=json_content)
content_text = content.xpath("string(.)").get()
因为只有 Selector 才有xpath方法,所以需要把 html 类型的字符串做一次转换才能用 string 方法