红色中国网

 找回密码
 立即注册
搜索
红色中国网 首 页 报刊荟萃 查看内容

Python实战 —— 2020左翼影响力分析

2021-1-27 23:49| 发布者: 龙翔五洲| 查看: 16266| 评论: 0|原作者: 李鹏程|来自: 激流网

摘要: 2020年开年以来,我不止一次地听到过这样的说法 —— “今年的形势真的不一样了”,“年轻人开始关注马克思或毛主席了”,“新一辈人开始关心社会问题了”。这样的观点出现在知乎、微信公众号,也出现在朋友同学的日常聊天里。其实我自己隐约之间也感受到了风潮的变动。

二、知乎

知乎作为一个问答类的社区,数据获取和分析的切入点更加难找。我本来试图搜索获取特定关键词在2020年某月和过去一年某月的全部结果进行词频等的分析。但无奈发现技术能力和电脑硬件水平不足以支撑这样的分析。所以我更换思路,爬取了2019年1月和2020年六月单数日知乎热榜问题的所有回答作为分析样本。因为知乎自己并不进行历史热榜的统计工作,历史热榜的数据采取的是第三方网站的统计结果,每天仅统计15个问题而非50个。爬取完成后2019年1月热榜问题对应回答的文字数据共166MB,2020年6月的为100MB。

对这些数据进行特定关键词的词频(即词组出现数量)分析,结果如下:

固然词频的对比十分显著,可是分析却难言十分成功,因为对于知乎热榜来说,一个问题往往对应几百上千个回答,只要热榜问题和待分析关键词扯上关系,回答中就可能多次涉及到这一关键词,带来显著的差别。而热榜问题数量每一组只有225个(15天,每天15个),样本量偏小。

三、总结

我本人学习的是传统工科,不管是对python编程还是对社会思潮的分析都是外行,甚至可以说在本次分析之前一窍不通。研究颇有不严密之处,请读者见谅。即便如此,我自己的疑惑还是解决了,我知道,今年所有这些“年轻人开始关注马克思”的说法并非空穴来风,而是确有现实背景。至于更为具体、更为严密的分析,还是得留待更为专业的人士来完成。我的研究权作抛砖引玉。

PS:

1. 本次分析的数据爬取工作采用了github上的成熟程序,对程序编写者表示感谢。

2. 感谢“南瓜”先生的技术支持。

2

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (2 人)

最新评论

Archiver|红色中国网

GMT+8, 2024-4-27 12:12 , Processed in 0.017287 second(s), 12 queries .

E_mail: redchinacn@gmail.com

2010-2011http://redchinacn.net

回顶部