Python使用BeautifulSoup解析出现
无法消除问题

最近看小说,总有奇奇怪怪的广告出现,于是想要抓下来慢慢看,于是开始动手:

resp = requests.post(URL + endPoint,headers = headers)
      soup = bs(resp.content,'html.parser',from_encoding = 'utf-8')
      #抓取文章内容
      tag = soup.find('div',id='nr')
      tagnext = soup.find('a',id = 'pb_next')
      nr = tag.get_text().encode('utf-8')
      #获取下一章地址
      match = re.match('.*html$',tagnext['href'])
      if match is None:
          return (nr,None)
      return (nr,match.string)

写完后我想,终于可以看小说了,于是我开心的点开我的文件

《Python使用BeautifulSoup解析出现<br />无法消除问题》” />    F361CE6F-5013-4E2F-9677-443644AD7C48.png</p><p>发现上面有好多^M的,看了一下html之后发现,每一行都有一个<br />标签来换行.<br /> 于是查找解决方法,最终发现了一个很好用的方法</p><pre><code>只需要更改一个小地方,在get_text()中用\n替换掉<br/>
print (tag.get_text('\n','<br/>'))
</code></pre><p><img layer-src=     原文作者:__鲸_
    原文地址: https://www.jianshu.com/p/3a407c1636fe
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。

点赞