编程宝库 - 技术改变世界

编程宝库

Python编程技术

python 爬取网易云音乐排行榜实例

主要注意问题：selenium 模拟登录、iframe标签定位、页面元素提取。
在利用selenium定位元素并取值的过程中遇到问题。比如xpath正确但无法定位，在进行翻页提取评论的过程中，利用selenium似乎不能提取不同页的数据，比如，明明定位的第三页的评论数据，而只能返回第一页的评论数据。

一、模拟登录

selenium 定位元素模拟人的操作进行登录，直接上代码：

//模拟登录
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import ActionChains
from lxml import etree
import time
from datetime import datetime,timedelta
wyy_url = 'https://music.163.com/'
driver = webdriver.Chrome()
driver.get(wyy_url)
driver.maximize_window() #全屏
time.sleep(2)
driver.find_element_by_xpath("//a[@class = 'link s-fc3']").click()
time.sleep(2)
driver.find_element_by_xpath("//a[@class='u-btn2 other']").click() #选择其他方式登录
#账号、密码登录
driver.find_element_by_xpath("//input[@type='checkbox']").click() #同意条款
time.sleep(0.5)
driver.find_element_by_xpath("//a[@class='u-btn2 u-btn2-2']").click()
#选择手机号密码登录
driver.find_element_by_xpath("//a[@class='f-fr s-fc3 pwdlogin']").click()
time.sleep(1)
driver.find_element_by_id("p").send_keys('xxx') #这里输入你的id
driver.find_element_by_id("pw").send_keys('xxx') #这里输入密码
time.sleep(1)
#点击登录
driver.find_element_by_xpath("//a[@class='j-primary u-btn2 u-btn2-2']").click()
time.sleep(1)

二、排行榜数据爬取

当时尝试直接用selenium定位标签取值，并没有返回有效结果。在后面爬取评论时，也遇到此问题。于是先获取页面内容在进行分析。

// 排行榜
base_url = "https://music.163.com/#/discover/toplist?id="
bang_typical = {'飙升榜':19723756,'新歌榜':3779629,'原创榜':2884035,'热歌榜':3778678}
#选择榜单
bang = input('请输入榜单：')
#构造榜单对应的链接
url = base_url + str(bang_typical[bang]) 
print('开始分析：-%s' %(bang))
#进入榜单
driver.get(url) 
time.sleep(3) 
#iframe标签定位，必要的，否则无法定位其他标签
_iframe = driver.find_element_by_xpath("//iframe[@id='g_iframe']") # 找到iframe标签
driver.switch_to.frame(_iframe)
time.sleep(1)
page_text = driver.execute_script("return document.documentElement.outerHTML")
#获取页面
html = etree.HTML(page_text) 
trs = html.xpath('//tbody/tr')
rank_list = []
title_list = []
span_list = []
singer_list = []
for tr in trs:
  rank = tr.xpath(".//span[@class='num']/text()")[0]    #注意xpath获取到的是列表，需提取其元素
  title = tr.xpath(".//b/@title")[0]
  span = tr.xpath(".//td[@class=' s-fc3']/span[@class='u-dur ']/text()")[0]
  singer = tr.xpath(".//div[@class='text']/span/@title")[0]
  rank_list.append(rank)
  title_list.append(title)
  span_list.append(span)
  singer_list.append(singer)
#输出榜单结果
df_bang = pd.DataFrame({'排名':rank_list,'歌名':title_list,'时长':span_list,'歌手':singer_list})

三、排行榜评论获取

主要是评论日期的格式转换，评论内容的清洗

// 评论
# 日期清洗函数
def change_time(time):
  now = datetime.now()
  day_y = datetime.strftime(now - timedelta(1),'%Y-%m-%d') #计算昨天
  day = now.strftime('%Y-%m-%d')
  year = now.strftime('%Y')
  if '年' in time:                                         #非今年
      new_time = time.replace('年','-').replace('月','-').replace('日','')
  elif '昨天' in time:
      new_time = time.replace('昨天',day_y+' ')  
  elif '前' in time:                                      #前天
      minut = int(time[:time.index('分')])
      new_time = (now + timedelta(minutes=-minut)).strftime('%Y-%m-%d %H:%M')
  elif len(time) == 5:                                   #今天
      new_time = day + ' ' + time
  else:                                                  #最近 **月**日 **：**
      y = '2021-'
      time = time.replace('月','-').replace('日','')
      new_time = y + time  
  return new_time      

#评论清洗
def change_review(r):
  if '：' in r:
      r_ = r.split('：')[1]
  else:
      r_ = r
  return r_

#评论点赞
def change_likes(l):
  if l != []:
      l_ = int(l.split('(')[1].split(')')[0])
  else:
      l_ = 0
  return l_

#拉动滚动条至翻页按钮处
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)") 

#获取页面信息
num = input('请输入需要爬取的页面总数：')  #想要爬取评论的页数，
#这里的思路是先通过翻页将获取到的所有页面的所有内容存至列表，再对列表遍历。
#因为当时直接用selenium 定位返回结果不对，当然你们也可以用selenium直接试试。
html_list=[] 
for i in range(int(num)):
  page_text = driver.execute_script("return document.documentElement.outerHTML")
  html = etree.HTML(page_text)#获取页面
  html_list.append(html)
  #翻页
  driver.find_elements_by_xpath("//div[contains(@class,'u-page')]/a")[-1].click()
  time.sleep(4)
  WebDriverWait(driver, 300, 0.1).until(EC.presence_of_element_located((By.XPATH, "//div[@class='cmmts j-flag']")))
  print(f'第{i+1}页爬取成功')

rev_list=[] #所有评论的列表
dat_list=[] #对应日期的列表
for review_page in html_list:
  raw_reviews = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cnt f-brk']/text()")#提取页面所有评论
  raw_reviews_ = [i for i in raw_reviews if "：" in i] #保证长度一致
  rv_date = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cntwrap']/div[@class='rp']/div[@class='time s-fc4']/text()")
  review_list = [change_review(r) for r in raw_reviews_]
  date_list = [change_time(d) for d in rv_date]
  rev_list.extend(review_list)   
  dat_list.extend(date_list) 
print('分析完成')
driver.quit()

运行结果:

1、排行榜：

在这里插入图片描述

2、评论：

在这里插入图片描述

总结

哈哈，用了快两年的csdn, 光顾着白嫖文章。这也是我的第一个帖子，也没啥经验，有啥问题的，还请各位指正！

关于python爬取网易云音乐排行榜数据代码的文章就介绍至此，更多相关python爬取网易云内容请搜索编程宝库以前的文章，希望以后支持编程宝库！

下一节：Python实现简易文档格式转换器

Python编程技术

最近看到市场上各种的文档格式转换软件，要么是收费、要么是有大量的广告。于是学习了一下 PyQt5 的页面操作，再加上了解 pandas 的使用方法。所以，萌生了想法写一个简单的文档格式转换应用。或者有更好 ...

Python 可迭代对象、迭代器和生成器

Python实现简易文档格式转换器