天涯论坛

 找回密码
 立即注册
搜索
查看: 84|回复: 3

博客园:被爬虫至宕机,初始商场化奋斗

[复制链接]

3069

主题

3万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99138952
发表于 2024-7-4 02:13:52 | 显示全部楼层 |阅读模式

大众好,我是Edison。

3月29日,国内最大且最纯粹的中文技术社区之一博客园颁布故障公告:下班前的暴雨,爬虫爬至园子宕机。到底是什么样的蜘蛛能让咱们的园子连续宕机呢?下面咱们就来瞧瞧到底是怎么回事儿。

说明:下面的文案内容均来自 博客园官方博客

3月25日第1次蜘蛛爬虫事故

今天12点上下,它又来了,熟悉的恐怖身影(116开头IP段、山西的某个城市),不是cc攻击,是那只令人“敬畏”的蜘蛛。

2022年4月3日,它的首次来访在园子里掀起暴风暴浪,数据库连接数过万,负载平衡带宽跑满,带宽扩容50%依然跑满,当时咱们经过限制同一个IP每日的请求数侥幸躲过。

2022年5月4日,它如同吃了兴奋剂般变得格外疯狂,因为触发IP请求数限制被重定向到登录站点,但它那龙卷风般的天量请求直接冲垮登录站点,奈之下,咱们屏蔽了这个IP网段。

它有成千上万的IP,咱们屏蔽的IP网段仅有255个IP,看索引量大的变化,咱们天真地以为影响不大,却不知因此呢得罪了中文互联网的老大。

得罪老大的后果便是:园子遭遇2022年最悲惨的境遇——被它拉黑,在搜索结果中对园子全面降权,让咱们切身体会老大的厉害。

懊悔自己的天真,感叹老大的厉害,咱们亡羊补牢以求老大网开一面——放开了被屏蔽的IP网段。

解除屏蔽后观察了1-2月,搜索流量并显著的回升,看来这次真的是惹怒了老大,咱们懊悔莫及,见识了真正霸气的老大不会给你悔过的机会。

在观察时期咱们有了一个惊人的发掘——每日光临园子最多的竟然是它,每日竟然拜访1000多万次,园子的博文总数就在1000万篇上下,日理万机的它竟然会每日看园子的每篇博文,难道准备以后改行当程序员?

接着,咱们又有一个发掘每日千万次的拜访竟然消耗了园子近一半的带宽花费针对囊中羞涩的园子来讲有点吃不消,每日让它看园子的每篇博文,还得给它倒贴带宽费,况且在搜索排名中继续被拉黑着。

于是,咱们采取了一个应对之策,专门供给一个负载平衡给它拜访并限制了峰值带宽,这般不仅能够掌控带宽花费况且在它发飙的时候能够减少宕机。

从去年到今天晌午,它被咱们这个对应之策经过专用负载平衡关进笼子里,即使被限制了带宽,它非常多时候给园子带来3000-4000的QPS,因此来个cc攻击,园子就格外难以撑住。

今天晌午,恐怖的事情出现了,起始不遵守针对搜索引擎的dns解析,从笼子里跑出来了!

近一年后它依然如此彪悍,如此毫忌惮,园子依然扛不住,除非屏蔽 IP 段,但又不敢再次得罪依然威风凛凛的老大,日前只是临时限制它所拜访的负载平衡的带宽,但这会让拜访这些负载平衡的正常用户受影响。

非常抱歉,这个突发问题给您带来了麻烦,咱们正在进一步想办法,争取找到更好的处理办法

【16:30】刚才试着放开有些带宽,数据库连接数火速飙升,这种并发疯狂爬取区别博文,缓存发挥不了功效

【16:50】这只蜘蛛今天已疯,咱们不想陪着疯,已暂时屏蔽去年屏蔽过的那个网段,屏蔽后马上恢复正常。如此疯狂的爬取已然和cc攻击没什么区别了。

【19:15】今年2月,咱们经过“百度搜索资源平台-反馈中心”反馈“抓取频次高的离谱,百度蜘蛛每秒请求数(QPS)竟然高达4000多”问题,百度客户竟然回复让咱们“自查整改”,吓得咱们不敢向百度客服反馈问题了。

【19:30】在被全面降权后,咱们被自己的经历惊呆了,百度不打一声招呼随手一掐,每日几百万的搜索流量就没了。倘若是一家依赖搜索流量的机构,百度能够随时要这家机构的命,园子由于不依赖百度流量而躲过一劫。

【20:10】又想起一则百度蜘蛛的故事,那是在2021年,百度蜘蛛模拟区别移动端屏幕尺寸的用户每日以超过百万的 UV 拜访园子,但 UA 却不带百度蜘蛛的标识(运用的是正常用户移动端浏览器的UA),导致GA这般拜访统计软件识别不出来,从而严重干扰了统计数据的准确性。

3月29日第二次蜘蛛爬虫事故

下班前的一场暴风雨,让园子一片狼藉。顶着暴风雨,加了服务器,但济于事。情急之中,断蛛求生立转机。

今天下班前的 17:00~17:30 上下身份未明的爬虫暴风雨般地袭击园子,导致数据库连接过万,全站宕机,由此给您带来很大的麻烦,请您谅解。

最后咱们经过给百度蜘蛛断网才恢复正常,导致暴风雨的爬虫不必定是百度蜘蛛,因为缺乏足够的数据,这次袭击园子的爬虫身份法确认。

给百度蜘蛛断网,是为了减少服务器的总负载,在上次故障时咱们只屏蔽了一个网段(255个IP)的百度蜘蛛,还有海量百度蜘蛛每日在园子里爬来爬去,虽然这些蜘蛛被关在笼子里(限制了带宽),但依然会给服务器带来不小的压力,让园子在暴风雨来袭时格外弱不禁风。

百度蜘蛛专用负载平衡 QPS 监控图:

非常抱歉!园子这段时间故障有点多。

曾经的一系列故障公告,是咱们鲁莽走进云计算时代初期的痛苦代价。

此刻还未成系列的故障公告,许是 AI 时代即将到来的被代价。

不管怎么样,不管是代价还是被代价,AI 时代真的要来了

【更新】

3-30 11:40 上下:又显现数据库连接数飙升问题,又是经过给百度蜘蛛断网恢复正常。

3-30 12:10 上下:试着解除百度蜘蛛的断网,放出后 pod CPU 与数据库连接数马上飞快提升,只能继续拉闸。

3-30 12:30 上下:将百度蜘蛛专用负载平衡的带宽限制由130M大幅下调至50M,再次放出百度蜘蛛进行观察。数据库连接数由1700上下提升至3000上下,这个连接数在能够承受的范围。12:40 上下能够起始,数据库连接数稳定在2000上下

3-30 14:20 上下:数据库连接数拉伸至4000多,将百度蜘蛛专用负载平衡的带宽限制进一步下调至30M,并增多1台服务器,让数据库连接数的拉升变成为了过山车。

3-30 14:50 上下:数据库连接数飙升至7000多,部分 pod CPU 过载,给百度蜘蛛断网,并屏蔽了来自微软 azure 的一个网段 40.*.*.0/24 ,才掌控住。

3-30 15:05 上下:数据库连接数又飙升至6000多,追加来自微软 azure 的一个网段 157.*.0.0/16,才再次掌控住。

3-30 15:17 更新:从日前状况看,针对今天下午显现的问题,屏蔽微软 azure 网段效果最显著

3-30 16:05 更新:经过 dns 反向解析确认被屏蔽的 azure 网段是微软 bing 爬虫之一 msnbot 所运用

博客园的商场奋斗开局

4月2日,博客园官方颁布了《园子的商场奋斗-开篇:绝境求商》一文,咱们看到园子日前正在推进的商场奋斗,毕竟情怀不可当饭吃。

下面便是文案的原文内容:

2021年的一场危险,给园子来了个做梦没想到的忽然袭击,让园子一片狼藉。

2022年的双重困境,让园子在暴风雨之后再添卑劣天气,不给园子一点喘息之机。

2023年困难重重的开局,将园子陷于看不到雨后彩虹的绝地,逼着园子唯有奋起出击。

今年是园子商场奋斗生死攸关的一年咱们将在自己认可的商场化方向上奋力探索,全力以赴找到园子的商场化出路,并开启园子现代化升级的新周期

期待大众的理解与支持,更期待大众的献计献策,帮忙园子找到最适合的商场模式。

日前在推进的商场奋斗项目有3个:

1)IT人才出海服务:3月底已推出第1站,详见 https://brands.cnblogs.com/haoron/

2)VIP会员服务:预计4月底上线,重点供给研发的不常用的制品增值功能,例如 github 与博客的同步功能。

3)云市场精品店:与阿里云云市场合作,预计5月推出。

针对博客园的商场奋斗有些园子里的大佬们提出了自己的看法:

1)

田园里的蟋蟀:

已然好久没写文案了,看了下自己的园龄已然10年了,不知道dudu还记得我不,哈哈。

好久没逛园子了,看着首页文案几十的阅读量,这氛围好似和以前差别太大了,靠着一腔热血写文案的人有,但连续利益的写又有多少呢?靠这些人把园子活跃起来,给自己带来利益,是不是把人想的太简单了,不是所有人都和你同样,搞自己的个人博客能够这般,但做为一个博客平台,有自己的用户,有自己的员工,就太理想了。

此刻的博客园和n年前还是同样,园子氛围有的话就热一把,就靠历史文案搜索流量,其他商场基本尝试,宣传其他新合作,这种短期的转瞬即逝,并不很久,过去那样数年,知识付费发展出那样多的制品,一个跟进,像极客时间、知乎、知识星球、公众号、xx云服务博客等,人家都发展的很好,其实博客园有很好的资源去搞这些,然则,散养这些博主,靠她们自觉去发博客,引导组织激励流量,怎么可能很久呢?一批又一批的人,最后还靠这些人留下的文案流量财富来挣钱。。。

我觉得基本还是思想的转变,对自己的博主负责(就像b站的up主),园子的资源才会上来,用户才会上来,流量氛围才会上来,其他会随之而来,当然这是对园子的,其实能够跳出园子本身,围绕这个资源做另一制品,可能会有新的发展,我觉得这些dudu肯定思虑过,但研发者的思想太固化,尤其是dudu这么极致的研发者,多倾听别人的想法,多思虑用户所想,放开脚步去尝试,而不是围地画圆。

上面说的可能不太好听,其实我还是希望园子有好的发展,毕竟园子对我有很大的道理,很感恩,倘若真的必须众筹,我参与哈,毕竟还有那样文案在里面,哈哈。

2)zsea:

我提个思路哈:首要便是让跟着园子的人都能挣到钱。

威客平台,这个是很好的连接普通人和程序员的桥梁,况且能够经过博客园的数据,对程序员进行认证,就相当于程序员的信用认证。

付费文案准许发帖设置为收费,别人辛辛苦苦科研的结果,写的文案,能帮到其它人,收一点费恰当的,有必须的人自然会付费。然则必须严格管理付费文案的质量。

品牌化,我真不晓得除了这个园子,咱们还有其它什么制品先扩大一下知名度。

在挣钱上,我的认识是,不是咱们供给什么,而是别人必须什么,只要搞清楚了别人必须什么,怎么处理都是有办法的。

一块加油。

3)zhangdaopin:

博客园做为一个老牌的博客社区,持有着众多的优秀博客博主和活跃用户,但面临着商场化出路不知道、盈利难度大等问题。针对这些困难,博客园能够思虑以下几种商场化出路:

宣传变现:博客园能够吸引品牌商、宣传主等颁布宣传按照宣传展示和点击量进行收费,实现宣传变现。

供给付费服务:博客园能够按照用户需求,供给各样增值服务,如付费主题、定制化博客、VIP会员等,从中得到资金报答

合作赞助:博客园能够关联行业优秀公司进行合作,如科技、创业、文化等行业公司,合作推出关联制品一起促进品牌价值和博客园价值。

会员制度:博客园能够推出会员制度,经过付费获取更加多的特权和优惠,如免费下载付费资源、专属社群互动、线下交流活动参与等。

总之,博客园必须更加积极地寻找商场化出路,创新商场模式,结合自己优良和用户需求进行优化,才可在激烈的市场竞争中立于不败之地。

4)ycyzharry

做为数年的博主,我供给几个我的思考供参考:

1 学习B站和UP主的关系,多有些文化内容,同期给博主有变现的机会,仅有博主在平台得到了真正好处,才会更积极给平台贡献更好内容。

2 非常多博主自己出书,那平台能够和博主合作,去帮忙博主出版、推广有些优秀内容图书。

3 能够与工厂合作,生产有些商品,程序员关联的,例如活动T恤、背包、礼物公仔等。商品是文化的一部分。

4 博问是不是能够结合ChatGPT这类AI工具来回答有些简单问题。同期博问里面园豆是不是能够兑换现金其他博客园自营商品来打通闭环。

5 此刻非常多程序员找不到工作,找不到女伴侣,平台能够引入招聘、红娘类似活动。期盼后面有技术人员真的经过博客园找到了工作和另一半。

6 短视频是一个很好的宣传平台,博客园为何不在抖音视频号去开通账号,为何不可去尝试有些和直播关联的业务,新东方做了农制品带货,博客园能够做自己特殊例如找大牛技术直播等等啊。

7 园子的商场奋斗3个方向中我最看好第2个,第1个仍有有些问题,例如价格偏贵、客户怎样相信平台、安全怎样保证、工作介绍的详细是啥、是不是更加多职业例如测试、运维、制品等等。第3个还要看详细合作的是啥。

8 博客园优良是啥,初心是啥,这些是基本,不期盼在探索商场化道理上迷失自己。

以上只是有些个人拙见,期盼能给日前的平台有些思路和思考。

5)老翅寒暑

老博主赶回来发帖:

流量时代,PC必定在没落,移动流量必要注意包含微X公众号、抖音、头条、乃至bilibili都必要要接入引流。引流的方式能够参考知乎的公众号。

面对多种区别的流量平台,必须区别的内容发送,综合园子热点、精选、技术要点泛谈、技术精讲进行推送。能够邀请作者共创、连线。例如公众号和头条适合发热点解析,文案转载;抖音适合1星期热点和技术要点两三句;bilibili适合发技术精讲

深入认识园子的特点:多、杂,然则水平相对较高。因此面向技术的高端知识应该是园子的卖点。因此园子的定位应该介于csdn,和infoq之间。infoq的定位很清楚,便是技术的前沿行业。csdn便是鱼龙混杂走量,虽然高质量内容比例低,然则分母大分子自然大,高质文案绝对数量其实并不少。因此呢,园子定位我意见几个方向:前沿内容的工程落地,流行技术的疑难处理,各样入门指点。反正便是让每种人群都有更大的收获:让新手快速入门,让老手飞速提高,让能手接触前沿,并联疑难杂症的处理,概念细节的深入理解等。

其他增收的途径:PC页面打赏能够有,然则过程太多必定转化率很低,聊强过。博客页面和作者公众号相关我觉得能够加上,由于我自己有需求。宣传、招聘其他人已然说过了。github pages能否对接?能否让我markdown发博客?能否让我发一次github pages就同步博客园?

关于增值服务。博友到博客园来,首要是表达的欲望,怎样更好的表达,更广泛的途径表达,这儿能够有思考的空间。其次是社会学层面的需求,例如园子认同感(T恤、吉祥物等),同行交流的需求(网络大会、各样专题交流会议等)。第三便是个人能力提高的需求,例如培训、指点、新技术介绍,然则重视不可水,倘若能三两句话就让人明白的,就必定不要一节课,节约客户的时间能够得到高溢价。第四便是内容参考,园子累积了高质量的内容(类似知乎),倘若能够接入ChatGPT之类的能力,结合用户保藏和发帖信息,实现快速的内容指点,等于每一个人给自己请了一个导师,必定特别有价值。

针对博客园的商场化,你有什么看法和意见吗?

欢迎在本文底部留言,精彩的留言我会帮你转发给dudu站长哦。

同期欢迎大众加入EdisonTalk读者交流群,dudu站长在里面哦。

源自:博客园官方博客编辑:爱迪生年终总结:Edison的2022年终总结数字化转型:我在传统公司做数字化转型C#刷题:C#刷剑指Offer算法题系列文案目录.NET面试:.NET研发面试知识体系.NET大会:2020年中国.NET研发者大会PDF资料




上一篇:【理论科研|2020年第13期(总第二十七期)】Web缓存鲜嫩度检测值在现有设计抗辩中的运用
下一篇:百度蜘蛛都在什么时间段抓取页面资讯?
回复

使用道具 举报

0

主题

1010

回帖

1

积分

新手上路

Rank: 1

积分
1
发表于 2024-8-23 14:10:45 | 显示全部楼层
楼主发的这篇帖子,我觉得非常有道理。
回复

使用道具 举报

2

主题

752

回帖

-7

积分

限制会员

积分
-7
发表于 2024-8-27 21:22:59 | 显示全部楼层
“BS”(鄙视的缩写)‌
回复

使用道具 举报

2996

主题

3万

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99109194
发表于 2024-10-25 01:12:39 | 显示全部楼层
我完全同意你的观点,说得太对了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-23 07:23 , Processed in 0.166442 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.