如题 : https://www.leduxs.cc/111150/10517036/
现象:
body 中小说内容不全, 但是打开的页面中小说是完整的
分析:
想当然以为是通过 ajax来向服务器再次请求的
复制页面内容, 到 vsc 中, 准备仔细分析的, 通过浏览器打开, 发现页面中小说内容也是完整的章节, 所以就直接排除 ajax的可能
结论:
剩余部分的内容,是写到了 js 脚本里, 也就是剩余部分内容其实是包含在页面源码中的. 只是浏览器会自动运行js代码, 让小说内容完整现实的.
解决方法:
我估计用 lxml 模仿 js 的思路, 删除元素, 添加元素能搞定.
再不济 用 re
好在为了偷懒, 用的是web自动化,直接run了对应js function
现象:
body 中小说内容不全, 但是打开的页面中小说是完整的
分析:
想当然以为是通过 ajax来向服务器再次请求的
复制页面内容, 到 vsc 中, 准备仔细分析的, 通过浏览器打开, 发现页面中小说内容也是完整的章节, 所以就直接排除 ajax的可能
结论:
剩余部分的内容,是写到了 js 脚本里, 也就是剩余部分内容其实是包含在页面源码中的. 只是浏览器会自动运行js代码, 让小说内容完整现实的.
解决方法:
我估计用 lxml 模仿 js 的思路, 删除元素, 添加元素能搞定.
再不济 用 re
好在为了偷懒, 用的是web自动化,直接run了对应js function