天涯论坛

 找回密码
 立即注册
搜索
查看: 48|回复: 4

新基建主题系列——大数据从何而来,涉足大数据业务需留意的网络爬虫技术合规害处

[复制链接]

3055

主题

155

回帖

9923万

积分

论坛元老

Rank: 8Rank: 8

积分
99238925
发表于 2024-8-25 16:20:27 | 显示全部楼层 |阅读模式

作者:薛熠 杨壹凯 程若锦

2020年4月20日,国家发改委首次知道了“新基建”的范围:以新发展理念为引领,以技术创新为驱动,以信息网络为基本,面向高质量发展需要,供给数字转型、智能升级、融合创新等服务的基本设备体系。“新基建”指的是,以5G、物联网、工业互联网、大数据中心、人工智能等为表率的新型基本设施,是信息数字化发展的结果。实质上,“新基建”这一概念早在2018年12月19日的中央经济工作会议中既已提出。

在“新基建”的风口下,大数据分析和应用不可缺席:无论针对物联网、人工智能,还是智能交通,或是商场行业的分析点击流量、客户质量、智能定价等等,莫不如此。随着《网络安全法》及其配套法规、标准及规范性文件的持续发布,大数据业务更加作为学界、法律工作者、媒介公众关注的重点,尤其在2019年,持续传出某些大数据业务经营者,因“过度收集、违法窃取和贩卖个人数据信息”、“未经个人同意搜集个人数据信息”等被警方调查或被迫下架的信息同期,大数据机构在担忧:大数据分析的业务该怎样开展?怎样合法合规地收集数据?那些技术能够运用

本文将以搜集大数据的技术之一,网络爬虫技术为例,讨论网络爬虫技术在运用和应用中的重点法律合规问题,供从事大数据业务的企业参考。

网络爬虫织网,为大数据分析捉捕信息

1、什么是网络爬虫

网络爬虫/爬虫程序(Web Crawler),叫作网络设备人(Web robots)、网络游客、蜘蛛爬虫,按照《互联网搜索引擎服务自律公约》,这是一种根据指定规则,可自动、批量从互联网爬行抓取数据信息的程序。网络爬虫技术做为采集大数据的重点方式之一,和重要的大数据信息源自已然被广泛并成熟地应用于各样互联网商场模式和运用场景,例如:新零售、社交、资讯、地图、互联网金融等。

基于区别运用场景,网络爬虫能够分为通用爬虫和专用爬虫:

通用爬虫重点应用于搜索引擎服务,其重点工作是无特定目的随机地抓取海量网页内容并下载到本地,储存为镜像快照并识别网页文字关键词;

专用爬虫为爬取特定范围的网页而设计,运用能够设置一个爬取的主题或范围,经过图像识别、设备学习等技术的帮忙,爬取互联网上的特定内容。

2、网络爬虫与大数据的联系

网络爬虫爬取的数据是大数据企业数据分析的重要源头之一,例如:有些大数据分析企业研发的“购物平台大数据分析软件”会借助爬虫技术海量收集购物平台的信息,如买家关键词搜索热度、某关键词引向的成交量、某关键词制品的定价分布等等,当收集到足够多的原始信息样本后,再借助大数据分析技术,向其客户供给商品流行趋势、定价策略的分析;有些信用调查机构是运用网络爬虫技术,从渺如烟海的互联网信息中识别并抓取特定主体的信用关联信息,从而经过对大数据的分析,相应得出信用结论。

网络爬虫合规危害分析

经过网络爬虫技术爬取到的数据信息有以下几种归类方式:(1)根据数据可得性,能够分为公开网络数据信息和非公开网络数据信息(如需付费观看的信息,或是内部数据库信息);(2)根据数据归属主体,能够分为个人信息数据、企业商场数据和社会公开数据。

日前,我国还已然生效的针对应用网络爬虫技术的规范性文件,从事大数据业务的企业在评定和分析其网络爬虫技术手段是不是合规,能够从以下几个方向思虑

1. 爬取数据的行径是不是合规;

2. 爬取的数据本身是不是存在合规问题;以及,

3. 爬取数据之后对数据的运用及存储等是不是合规。

1、爬取数据的行径是不是合规

网络爬虫技术采取的是“广撒网”模式,爬虫脚本自动运行后,在确定的爬取网站范围内对各网站上载的信息进行遍历。但基于商场利益等原因的考量,部分网站的部分/所有数据信息是不准许其他主体爬取的,因而会选取经过制定和颁布设备人协议(robots协议)或经过设置技术性阻碍经过平台服务协议等方式来限制或禁止外边爬虫拜访特定的数据信息。该等办法一般叫作为“反爬虫安排”[1]。尽管存在反爬虫安排,但有些企业还是会绕过或无视这些反爬虫的规制,从而给其自己带来合规危害重点包含被认定为未经授权(包含网站授权和个人授权)收集数据、引起网站没法正常运营,形成犯罪的,还可能需要承担刑事责任(如违法侵入计算机信息系统罪、破坏计算机信息系统罪、违法获取计算机信息系统数据罪等)。

为方便阅读,咱们以上爬取数据的行径可能引起的企业合规危害以下表展示:

序号

合规危害

法律责任

1

未经网站授权收集数据:若被爬取数据的网站并未开放或授权数据采集,以爬虫方式收集数据信息的行径可能会违反设备人协议或侵犯网站其他关联权益

民事责任:

(1) 侵犯著作权或其他民事侵权责任

(2)形成不正当竞争

司法实践中,法院认为,设备人协议应当被认定为搜索引擎行业内公认的、应当被遵守的商场道德,是数据权利人针对爬虫方的一种维权途径,以明示禁止爬取行径倘若爬虫方不遵守设备人协议,未经网站授权,其收集数据行径显著欠妥,可能形成侵权或不正当竞争[2]。在无前述设备人协议的状况下,网站做为权利人,能够主张爬虫方侵犯著作权[3]形成不正当竞争[4]。 

刑事责任

严重的未经网站授权爬取数据行径可能会形成犯罪,例如侵犯著作权罪[5]违法获取计算机信息系统数据罪[6]违法侵入计算机信息系统罪。 

2

未经个人授权收集数据:在爬虫方经过网络爬虫技术收集个人信息时,可能被界定为《网络安全法》项下的网络运营者,从而按照《网络安全法》和《信息技术个人信息安全规范》(GB/T 35273-2017)[7]等规定,在收集个人信息前,得到个人信息主体的授权同意;间接获取个人信息时,应向个人信息供给认识个人信息主体是不是授权同意转让、共享、公开披露等

民事责任

爬虫方未经个人授权收集自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、tel号码等以电子其他方式记录的能够单独与其他信息结合识别自然人个人身份的各样信息,或超范围过度收集个人信息的,可能因违反《网络安全法》、《信息技术个人信息安全规范》和/或《互联网个人信息安全守护指南》,而被需求承担侵权责任。

行政处罚

爬虫方未经个人授权收集个人信息的,或超范围过度收集个人信息的,可能违反《网络安全法》第四十一条,企业和直接负责的主管人员和其他直接责任人员分别被处以责令改正、警告、没收违法所得、罚款,乃至责令暂停关联业务、停业整顿、关闭网站、吊销关联业务许可证吊销营业执照。

若爬虫方取得的信息为非公开途径的信息,触及窃取以其他违法方式获取个人信息,将可能面临被没收违法所得,并处罚款。

__

刑事责任

爬虫方未经个人授权收集能够识别百姓个人身份触及百姓个人隐私的个人信息的,可能被认定为是“窃取以其他办法违法获取百姓个人信息”,形成侵犯百姓个人信息罪[8]。 

3

引起网站没法正常运营[9]:因爬虫引起网站负荷过大,海量正常用户请求堵塞,拜访显现速度慢或部分页面没法表示等现象。 

民事责任

倘若运用爬虫技术引起网站没法被正常拜访,可能形成侵权并承担对网站经营者所遭受损失的侵权赔偿责任。

刑事责任

倘若运用爬虫技术获取信息被认定为对计算机信息系统功能进行干扰,导致不可正常运行,则可能触犯破坏计算机信息系统罪。

2、爬取数据的合规性

爬虫方除应当评定其数据爬取行径是不是合规外,还应当评定和分析其爬取所得的数据本身是不是可能侵犯他人的权利,例如:触及个人信息守护、侵犯著作权或商场奥密

侵犯个人信息与隐私权

爬虫方在某网站(以下叫作“信息供给方”)爬取到他人的个人信息时,可能需要进一步确认信息供给是不是取得相应的授权,转让、共享、公开披露该等个人信息。若否,信息供给方可能触及超授权范围运用个人信息,而间接获取个人信息的爬虫方因存在过失而触及未经授权收集个人信息

所爬取的个人信息触及隐私的,还可能侵犯其隐私权

侵犯著作权/形成侵犯著作权罪

爬虫方在进行抓取网页信息时,若将他人作品复制保留,可能会侵犯他人的复制权

若爬虫方在保留爬取到的数据时,抹去了他人署名或进行删改,可能侵犯他人的署名权、修改权

在爬虫方以营利为目的,未经著作权人许可,复制发行其文字作品、音乐、电影、电视、录像作品、计算机软件及其他作品的,按照违法所得数额和是不是拥有严重情节的,还可能被认定为侵犯著作权罪

侵犯商场奥密

若爬虫方获取的数据信息符合我国《反不正当竞争法》项下对商场奥密的定义,即不为公众知悉、拥有商场价值并经权利人采取相应保密办法商场信息,且这类爬虫行径可能被认定为是电子侵入或以其他不正当手段获取,则可能会被认定为侵犯他人的商场奥密[10]

3、爬取数据之后对数据的运用及存储等是不是合规

在爬虫方已合规取得数据信息的状况下,企业还应当留意其后续运用、存储该等数据信息是不是合规,例如:是不是存在超范围运用、侵犯著作权、不正当竞争、信息泄密等问题。

超范围运用爬虫数据

有些网站可能会在网页中添加法律声明、权利归属或版权守护条款,对数据的权利归属和运用限制进行声明,爬虫方应当在后续运用所爬取的数据时,在前述类似声明的准许框架内恰当运用数据

若爬取的数据中包括个人信息,爬虫方对该等个人信息的运用应当取得知道授权同意运用的范围和运用目的

对爬取的数据的运用应当恰当,避免显现以下状况:因某些大数据信用调查机构利用爬虫技术搜集个人信息并用于暴力催收,而引起该等企业被警方调查或应金融主管分部需求进行自查整改[11]

不正当竞争

企业在运用经过爬虫技术取得的同类网站关联信息且直接不加修改地运用数据时,可能被认定为搭便车、形成混淆等不正当竞争行径。在司法实践中,法院认为,经过爬虫技术手段获取其他同类网站付出人力、物力、财力和时间等经营成本搜集整理的信息数据后,直接在自己的网站上展示并以此获取商场利益的行径,因未付出劳动、未支出成本、未做出贡献,属于反不正当竞争法理论中典型的“坐享其成”和“搭便车”的行径同期因为运用内容完全一致,运用爬虫数据的一方可能会对同类网站形成实质性替代,这种经营模式违反公平原则和诚实信用原则,违反公认的商场道德,形成不正当竞争[12]

侵犯著作权

爬虫方在运用所收集的触及他人著作权的数据内容时,应重视不得实施抹去权利人的信息、对作品进行欠妥剪裁等行径[13],否则可能侵犯权利人的复制权、署名权、修改权、信息网络传播权等著作权

未能保准爬虫数据信息安全

企业在保留获取的数据信息时,爬虫方应当严格遵循《网络安全法》对网络安全等级守护制度的需求、防止网络数据泄密或被窃取、篡改,应当符合存储大数据的互联网数据中心的建设标准,采取技术办法和其他必要办法保准其收集及保管的数据信息的安全

企业合规意见

1、做为爬虫方

(1) 重视其他网站的设备人协议的详细内容和限制;

(2) 严格管控数据采集的范围,不超范围采集,当触及个人信息的需格外谨慎

(3) 运用过程中需要甄别爬虫收集的信息的权属,保证对信息权利人著作权、个人信息等的守护,并保证不超范围运用

(4) 不得将爬虫技术及采集到的数据信息用于不正当竞争或其他缺乏恰当性、合法性的用途;

(5) 当抓取的信息侵犯其他方权益时,应即时通告关联方删除、断开或自动删除、断开运用该等侵权数据的链接;

(6) 在存储爬虫所收集的数据时,应当重视信息安全。

2、做为反爬虫方

(1) 组建专业的信息安全团队;

(2) 编制恰当设备人协议,将其内容合同化,同期重视不得利用设备人协议进行不正当竞争行径

(3) 恰当利用爬虫技术监控互联网中的其他主体是不是有不恰当运用自己的数据信息的状况

[注] 

[1]

一般而言,“反爬虫安排”包含以下三类:

(1) 在IT支持团队中设置专门的反爬虫团队并研发阻止爬虫脚本自动运行的“墙”,例如设置需要滑动进行验证或需要按秩序点击的验证码等;在内容格式加密上做文案例如采取将关键数据转为照片,或采用JavaScript混淆技术等。

(2) 爬虫的“潜规则”,例如,爬虫运用方主动约束爬虫的爬取吞吐量,避免因爬虫导致拜访量过载引起网站瘫痪 。

(3) 在网站中挂出设备人协议文件(robots.txt),该协议是网站的所有者经过明示的方式,对区别主体派出的爬虫进行授权,写明可拜访和不可拜访的文件信息而制定的爬虫行径准则。设备人协议并非不可直接用技术手段阻止爬虫进行数据搜集,缺乏强制性,但业内广泛认为,制定设备人协议应当是行业内的通行规则,遵守协议的行径显著欠妥,应当在出现争议时承担相应的有害后果。

[2]见“浙江泛亚电子商务有限机构诉百度在线网络技术(北京)有限机构等侵犯著作权纠纷案”一审民事判决书,案号:(2006)一中民初字第6273号;“百度与奇虎机构不正当竞争纠纷案”一审民事判决书,案号:(2013)一中民初字第2668号。

[3] 见“亚长城影视文化(北京) 有限机构与精伦电子股份有限机构侵犯影视作品信息网络传播权案”,案号:(2014)鄂民三终字第00107号。

[4] 见“深圳市谷米科技有限机构与被告武汉元光科技有限机构、邵凌霜、陈昴、刘江红、刘坤朋、张翔不正当竞争”民事判决书,案号:(2017)粤03民初822号。

[5] 见“何超侵犯著作权案”,案号:(2016)沪03刑终1号。

[6] 见“邵凌霜、陈昴、刘江红、刘坤朋、张翔犯违法获取计算机信息系统数据罪案”,案号:(2017)粤0305刑初153号。

[7]国家标准化管理委员会及国家市场监督管理总局已于2020年3月6日发布新版《信息安全技术 个人信息安全规范》(GB/T 35273—2020),但新版规范于2020年10月1日正式实施,日前仍需参考《信息技术个人信息安全规范》(GB/T 35273-2017)。

[8]见“秦帅等侵犯百姓个人信息罪案”,案号:(2018)京0108刑初770号。

[9] 我国日前科研出台《数据安全管理办法》,在已颁布的征求意见稿中提出,网络运营者采取自动化手段拜访收集网站数据,不得妨碍网站正常运行;此类行径严重影响网站运行,如自动化拜访收集流量超过网站日均流量三分之一,网站需求停止自动化拜访收集时,应当停止。

[10]见“北京微梦创科网络技术有限机构与北京淘友天下技术有限机构等不正当竞争案”一审民事判决书,案号:(2015)海民(知)初字第12602号。

[11] 参见http://finance.caixin.com/2019-10-22/101474132.html,“北京金融局摸排区内大数据机构爬虫业务”。

[12]见“上海汉涛信息咨询有限机构与爱帮聚信(北京)科技有限机构、爱帮聚信(北京)信息技术有限机构不正当竞争纠纷一案”民事判决书,案号:(2010)海民初字第24463号。

[13]在实践中,有一种情形较为多见:视频网站爬取其他网站的视频信息,在自己的网站上供给播放服务,或小说网站“盗取”正版小说网站的收费作品,在自己的网站上免费供网友阅读,这些情形均可能触及侵犯著作权人的信息网络传播权。

新基建主题系列阅读

点击下列文案标题可查看原文

1. 《新基建主题系列——关注特高压及新能源项目的用地法律危害

2. 《新基建主题系列——IDC行业相关运营和架构的法律考量》

3. 《“新基建”风口下投资新能源汽车充电桩项目的法律问题》

4. 《新基建主题系列——智能家居出海的八个数据守护关键词》

5. 《“新基建”投资背景下PPP-ICT项目交易结构设计要点》

6. 《新基建主题系列——数字金融的应用、监管及合规思考

7.  《新基建主题系列——人工智能之间达成“垄断协议”?算法合谋的反垄断法律危害分析

8.  《新基建主题系列——人工智能技术研发中的知识产权法律危害

The End

 作者简介

薛熠  律师

北京办公室  合伙人

业务行业反垄断与竞争法, 收购兼并, 合规/政府监管

杨壹凯   律师

北京办公室  机构

程若锦   

北京办公室  机构

作者往期文案举荐

《新基建主题系列——人工智能之间达成“垄断协议”?算法合谋的反垄断法律危害分析》

《“说不清”的不公平高价:以中国反垄断执法实践为基本的观察与思考》

诠释“必需设备理论”在知识产权反垄断规制下的适用》

《简评“注射用葡萄糖酸钙原料药垄断案”——反垄断监管抽丝剥茧,抗拒执法代价昂贵

《“新基建”风口下投资新能源汽车充电桩项目的法律问题》

代理关系,纵向关系中《反垄断法》危害的“避风港”?

反垄断执法公司近五年执法状况浅析》

《免费数字制品市场上的竞争问题有加无已——欧盟谷歌安卓反垄断案件再跟踪

《未依法申报陷阱之经过合同或其他方式取得掌控权》

《战“疫”|疫情时期企业怎样避免踏入“哄抬物价”的违法雷区(下)》

《疫情时期企业怎样避免踏入“哄抬物价”的违法雷区(上)》

《纵向合并竞争分析新框架——简评美国2020<纵向合并指南(草案)>》

《反垄断视角下并购交易中的不竞争条款》

《新兴行业法律观察 | 商场遥感卫星运营及遥感数据应用》

《企业登记申请文书的变革来了,内外资企业你准备好了吗?》

将来已来?——价格算法合谋或作为反垄断执法焦点》

尤其声明:

以上所刊登的文案表率作者自己观点,不表率北京市中伦律师事务所或其律师出具的任何形式之法律意见或意见

如需转载或引用该等文案的任何内容,请私信沟通授权事宜,并于转载时在文案开头处注明源自于公众号“中伦视界”及作者姓名。未经本所书面授权,不得转载或运用该等文案中的任何内容,含照片、影像等视听资料。如您有意就关联议题进一步交流或探讨,欢迎与本所联系。

点击“阅读原文”,可查阅该专业文案官网版。





上一篇:互联网不互联简史
下一篇:只需两步,正确识别百度蜘蛛
回复

使用道具 举报

3058

主题

2万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99139064
发表于 2024-10-5 06:43:35 | 显示全部楼层
外链发布论坛学习网络优化SEO。
回复

使用道具 举报

3086

主题

2万

回帖

9909万

积分

论坛元老

Rank: 8Rank: 8

积分
99098782
发表于 2024-10-17 10:59:47 | 显示全部楼层
“NB”(牛×的缩写,表示叹为观止)‌
回复

使用道具 举报

3058

主题

2万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99139064
发表于 2024-11-5 22:13:46 | 显示全部楼层
顶楼主,说得太好了!
回复

使用道具 举报

3058

主题

2万

回帖

9913万

积分

论坛元老

Rank: 8Rank: 8

积分
99139064
发表于 6 小时前 | 显示全部楼层
“沙发”(SF,第一个回帖的人)‌
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|天涯论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-11-22 12:20 , Processed in 0.212049 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.