最近在做一个python作业的实训,内容是爬取新浪新闻首页的热门视频
思路是这样 先把https://www.sina.com.cn/作为BASE_url 然后requests获取res用正则匹配视频链接作为第二次解析的url 到这一步没什么问题·
接下来解析url的时候 举个例子http://video.sina.com.cn/news/spj/topvideoes20200107/#318881021
这个页面审查元素查找mp4可以发现在video标签下有视频链接地址src=”http://edge.ivideo.sina.com.cn/31888102103.mp4?KID=sina,viask&Expires=1578585600&ssig=ffU4C8IOk1&reqid=”
但是第二次请求返回的内容和网页审查元素差别很大大 貌似是json内容
里面只有对视频各类属性的描述 我百度了说是 动态网页的问题 所以用了
selenium加chrome模拟正常的浏览器访问 但是得出的res还是一样
有大佬知道应该怎么操作吗 救救萌新
思路是这样 先把https://www.sina.com.cn/作为BASE_url 然后requests获取res用正则匹配视频链接作为第二次解析的url 到这一步没什么问题·
接下来解析url的时候 举个例子http://video.sina.com.cn/news/spj/topvideoes20200107/#318881021
这个页面审查元素查找mp4可以发现在video标签下有视频链接地址src=”http://edge.ivideo.sina.com.cn/31888102103.mp4?KID=sina,viask&Expires=1578585600&ssig=ffU4C8IOk1&reqid=”
但是第二次请求返回的内容和网页审查元素差别很大大 貌似是json内容
里面只有对视频各类属性的描述 我百度了说是 动态网页的问题 所以用了
selenium加chrome模拟正常的浏览器访问 但是得出的res还是一样
有大佬知道应该怎么操作吗 救救萌新





