python实战分析:抖音短视频下载
本来其实我是很懒很懒的,所以好久都没有更新网站了,没想到今天白天更新了一下,晚上又发现了一个很好的东西来进行更新,那就是题目。
目前抖音已经上线了网页版,那么我们想要爬取他的视频就不需要钻研安卓了,我们只需要通过 Python,来进行爬取就可以了。
https://www.douyin.com/ (opens new window) 这个是抖音的官网,一进去就发现其实这个页面是非常干净的,没有什么垃圾广告之类的,不过其实大多数的网站都没有什么小弹窗。
不过发现看视频也没有广告,不过我预计后期可能会加广告,毕竟通过网页来看短视频其实并没有用手机看舒服。
现在我有一个不知道是好是坏的习惯,就是看见视频页面就理所应当的 F12 查看一下这个视频是否能够下载,既然如此,那么我们就看一下这个视频吧。
可以很容易的发现我们找到了想要的东西,我们只需要找到链接然后右键 Open in New Web 即可,然后就能将视频下载下来了,这里就不写 Python 代码了,太简单了,只是简单的分析一下而已。
然后其实接下来就是分析一下链接了。
找了一个视频页来进行分析一下啊,首先开头到 video 都是没有什么意义的东西,然后就是 6976573531568016678 这个是视频的 id,然后 previous_page=search_result 这个应该是说明视频是从哪里来的,后面的内容大概猜了一下就是我搜索的内容然后再加上一些标记来记录这个搜索词,之所以这么认为是因为如果我从这个人的主页打开的话,那么视频页的链接就不是这样的了。
https://www.douyin.com/video/6954614178195721480?previous_page=others_homepage (opens new window) 后面的 previous_page=others_homepage,这个应该是说明这个视频是从作者的主页打开的,所以我们其实这个视频只需要获取 id 即可修改打开所有的网页。
然后再说一下搜索页,https://www.douyin.com/search/我的世界?aid=24c82fdf-b203-44c4-b5ef-bf7489162346&publish_time=0&sort_type=0&source=normal_search&type=video (opens new window) 这里我搜的是我的世界,aid 这个应该是随机的进行记录,然后再就是 publish_time 这个我猜应该是搜索用的时间不过大概率不是,意思是发布时间,但是结果是 0。。。。
然后发现这个有一个发布时间的选项,点击尝试,发现这个 publish_time 是这个一天内一周内半年内的修改值。我随便修改一个值发现没啥用,所以这个应该是定值,0,7,182,分别是一天内,一周内和半年内。
在接下来是 sort_type 这个有了上面的基础,很容易就知道是排序,值分别是 0,1,2 代表的是综合,最多,最新。
source=normal_search 这个我只发现了两个值一个实 history_search 一个是 normal_search,后面的是普通搜索,前面的我
猜是通过搜索历史来搜索。
还有一个值是 search_sug,这个是通过下拉菜单搜索得到的值。
然后最后就是 type 这个就是 video 和 user 了,分别是视频和用户。
然后再简单分析一下用户主页的链接吧。
是这里 user 其实跟视频一样,就是在说明这个页面是干啥的页面。然后 MS4wLjABAAAA 我发现是固定的。后面是随机的,我猜是标记,因为这个同一个人是不变的。之后 enter_method 这个是进入主页的方式,video_title 这个值应该是我们通过点击这个人进入的主页,没发现别的凡是,然后 author_id 这个是作者的 id,然后再就是 group_id 这个是记录你从那个页面进入主页的,目前我发现的是通过某个视频进入这个主页,那么 group_id 就会是这个视频的 id。
后面的就不知道是啥意思了,如果有懂的可以评论一下大家交流一下。