西西软件园多重安全检测下载网站、值得信赖的软件下载站!
西西首页 常用软件 软件下载 安卓软件 游戏下载 安卓游戏 MAC应用 驱动下载 安卓电视
系统工具网络工具媒体工具图形图像聊天工具应用软件编程开发手机软件安卓应用电脑安全字体素材

python爬取微博评论源码

  • python爬取微博评论源码
  • 软件大小:1KB
  • 更新时间:2020-03-28 09:59
  • 软件语言:中文
  • 软件厂商:
  • 软件类别:国产软件 / 免费软件 / 源码相关
  • 软件等级:3级
  • 应用平台:WinXP, Win7, win8
  • 官方网站:暂无
好评:50%
坏评:50%

本类精品

装机必备软件

软件介绍

python爬取微博评论源码,由论坛大神原创制作的一个爬取程序,可以爬取微博评论,用户可以单独搜索某个博主的微博,搜索历史时间线,快速爬取获取目标微博下的全部评论,并直接导入到txt文档内。本次放出python爬取微博评论工具源码下载,感兴趣的朋友们不妨试试吧!

python爬取微博评论源码

python爬取微博评论思路

打开网址[https://m.weibo.cn/detail/4478512314460101]

点击万能的F12

点击:->网络->XHR->hotflow.....->预览

网址:[https://m.weibo.cn/comments/hotflow?id=4478512314460101&mid=4478512314460101&max_id_type=0]

已经可以确定这个是评论的json接口了

然后看第二页有什么区别

往下拉,看第二页

看来数据没什么区别

第一页网址:[https://m.weibo.cn/comments/hotflow?id=4478512314460101&mid=4478512314460101&max_id_type=0]

第二页网址:[https://m.weibo.cn/comments/hotflow?id=4478512314460101&mid=4478512314460101&max_id_type=0&max_id=17250816281250492]

咦,第一页和第二页多出来一个max_id参数(后面其他页数也是这里就不做演示了)

看一下第一页数据中是否有max_id

果然有max_id,还是第二页的(看懂了一切)

那就是说:第二页的max_id在第一页中,第三页的在第二页中,以此类推

python爬取微博评论源码

import requests

import json

import re

import os

'''

说明:请添加第11行的cookie,修改第26行的保存路径

作者:帅气逼人的钢铁直男---幻夜

'''

headers = {#请求标题头

'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4086.0 Mobile Safari/537.36',

'cookie':''#请填写自己的cookie

}

id = input("请输入ID:")#获取ID

if id == "":#当ID为空停止脚本

    print('再见')

    os._exit(0)#停止脚本

ret = requests.get('https://m.weibo.cn/detail/'+id,headers = headers).text#获取网页内容

if '出错了' in str(ret):#网页出错停止脚本

    print('ID不存在')

    os._exit(0)#停止脚本

title = input("请输入保存文件名字:")#输入保存文件名字

if title  == "":#为空停止脚本

    print('再见')

    os._exit(0)#停止脚本

max_id = False#定义变量

path = "C:\\Users\\win10\\Desktop\\python\\爬虫\\"+title+".txt"#自己修改文件路径

if os.path.exists(path):#当文件存在时删除,为了不重复

    os.remove(path)#删除

page_end = 10#爬取页数,自己修改

page_start = 1

u = 1

while page_start<page_end:#当start小于end时进行循环

    if max_id == False:#因为微博第一页和其他页的参数不一样所以需要区分开来

        url = "https://m.weibo.cn/comments/hotflow?id="+id+"&mid="+id+"&max_id_type=1"#第一页不包含max_id

        json = requests.get(url)#访问评论json数据

    else:

        url = "https://m.weibo.cn/comments/hotflow?id="+id+"&mid="+id+"&max_id="+str(max_id)+"&max_id_type=0"

        json = requests.get(url,headers = headers)#访问评论json数据

    json = json.json()#转化数据

    max_id = json['data']['max_id']#第二页的max_id在第一页中 第三页在第二页中...以此类推

    jsons = json['data']['data']

    page_start = page_start+1#自增

    for j in jsons:

        text = j['text']

        text = re.sub(r'<(.+?)>','',text)#删除表情包

        with open(path,"a+",encoding = 'utf-8') as f:

            f.write(text+'\n\n')

        print("第"+str(u)+"条评论完成")

        u = u+1

print('完成')

相关新闻

3月20日消息 天眼查数据显示,3月19日,微博的运营主体——北京微梦创科网络技术有限公司发生多项工商变更。

其中,刘运利退出法定代表人、经理、执行董事,新增微博代理首席财务官兼高级副总裁曹菲为法定代表人、董事长、经理;新增黄争取、谷海燕为董事。此外,注册资本从原来的5.55亿增至约5.6亿,增幅为1.01%,其经营范围也发生了变更。

北京微梦创科网络技术有限公司成立于2010年8月,天眼查股东信息显示,王巍、刘运利分别持股29.70%,为公司最大股东。

软件标签: python 微博 爬取

软件截图

python爬取微博评论源码

    其他版本下载

    热门评论

    最新评论

    发表评论 查看所有评论(0)

    昵称:
    表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
    字数: 0/500 (您的评论需要经过审核才能显示)

    下载帮助下载帮助西西破解版软件均来自互联网, 如有侵犯您的版权, 请与我们联系。

    TOP
    软件下载