高德、腾讯等司法判例启示录:数据抓取合规性新风险与企业应对策略

2025-04-21  作者:曾维宇、黄怡敏  

引   言


当今数字时代,数据抓取行为已成为企业竞争的新战场。数据抓取不仅关乎信息的获取与利用,更是直接影响着商业决策的精准度和市场布局的前瞻性。数据的价值不言而喻,驱动着各行各业的发展。然而,随着高德诉万得案、腾讯诉字节案的发生,数据抓取的合规性问题引发了社会的广泛关注。在这样的背景下,我们需要探讨数据抓取合规性的新动向以及企业的应对策略。

一.大型数据平台反爬虫情况
目前,企业通常通过数据抓取的方式来获取公开数据。数据抓取能够对网络中的文本、图像、声音和视频等信息进行大规模地抓取。很多网站都采用了类似于 Robots协议、爬虫检测、设置验证码等手段,以保证网站的正常运营和数据的安全性。

大型数据平台为了保护自己的数据不被未经授权的爬虫抓取,通常会采取以下一些反爬措施:

(一)法律文本


如Robots协议、用户协议、网站法律声明,明确哪些页面或数据可以被爬虫访问,哪些不可以。


(二)反爬技术措施

●登陆验证:在检测到可疑行为时,要求用户输入验证码来确认是人类操作。

●网页动态加密:使用JavaScript动态生成内容,使得数据不在静态HTML中直接展现,增加爬取难度。通过Ajax技术动态加载数据,爬虫需要模拟用户行为或解析JavaScript才能获取数据。

●IP频率访问限制:对频繁访问的IP地址进行限制或封禁,防止爬虫的连续抓取。使用IP地址池或代理服务器来绕过IP限制。对单个IP或账号的访问频率进行限制,超过阈值的请求将被拒绝。

●用户行为分析:通过分析用户行为模式,识别并阻止非正常用户行为的爬虫。

API限制:对API接口进行访问限制,如限制请求次数、请求频率、请求参数等。

数据加密:对传输的数据进行加密,使得爬虫难以解析抓取到的数据。

 

(三)司法手段打击

通过法律途径,如发送警告信、提起诉讼等,来阻止或惩罚非法爬取行为。


二、企业数据抓取合规风险

对于所抓取的数据,其来源的合规性是一个必须解决的问题。在审理有关数据爬取类的案例中,法院将对数据获取或使用的合理性进行综合考量。司法实践中,数据抓取技术本身被视为一种中立的工具,其使用并不当然带有法律上的可责性。最高院认为,即使爬虫技术曾被用于违法活动,但并不等于该项技术本身具有违法性。目前,法律并未禁止在合理限度范围内的公开数据抓取行为,但是,如果数据抓取过程中使用的技术手段不恰当,超出了合理范围和程度,则可能面临承担民事、行政、刑事等责任的风险。在民事责任风险上,可能构成不正当竞争、侵犯公民个人信息、著作权侵权、侵犯商业秘密等。在刑事责任风险上,可能构成“提供侵入、非法控制计算机信息系统程序、工具罪”“非法侵入计算机信息系统罪”“非法获取计算机信息系统数据罪”“侵犯公民个人信息罪”“侵犯商业秘密罪”“侵犯著作权罪”“破坏计算机信息系统罪”。在一定情况下,民事责任可以转变为刑事责任,二者的区别主要在于情节的严重程度。例如著作权侵权可能上升为侵犯著作权罪,不正当竞争行为也可能构成破坏计算机信息系统罪等。同时面临行政处罚风险责任,涉及的规范主要包括:《网络安全法》《数据安全法》《个人信息保护法》《反不正当竞争法》《治安管理处罚法》等。


三、数据抓取系列案件回顾

(一)高德诉万得案

1.案件背景

原告高德依托电子地图收集的电子地图数据、用户出行数据和实时交通信息等原始数据,通过特定算法并经分析处理形成数据产品——拥堵延时指数。被告万得(一家金融信息服务企业)采用变换IP地址和伪造浏览器标识等手段,从2015年至2023年间持续抓取“拥堵延时指数”数据,并在其经营的金融终端付费软件上商业化使用该数据。

 

原告认为被告的行为严重损害了原告的合法权益,破坏了数据市场的竞争秩序,遂诉至法院。

 

2.裁判要旨

“拥堵延时指数”数据能够使城市拥堵状态及其趋势得以精确、简练、量化地表达,满足各类交通参与主体了解、研究交通拥堵状态的需求,具有较高的应用价值和市场价值。原告公司凭借开发和运营“拥堵延时指数”数据为自身建立市场竞争优势,并凭借对外授权“拥堵延时指数”数据获取经营利益,该等经营利益属于竞争性权益,受到反不正当竞争法保护。


被告公司未经许可,利用变换IP地址和伪造浏览器标识等不正当手段抓取“拥堵延时指数”数据,并将抓取的数据存储在某金融终端软件中,以商业目的向付费用户传播,违背了数据领域中公认的商业道德和诚实信用原则,损害了原告公司的合法权益及消费者利益,破坏了数据领域中的市场竞争秩序,构成不正当竞争。

 

法院在综合考虑“拥堵延时指数”数据的价值、被告公司侵权主观故意、侵权情节严重等因素,同时结合涉案数据产品的对外授权许可费用,确定本案的赔偿金额,最终判令被告停止侵权、消除影响,并赔偿二原告经济损失及维权合理开支共计1250万元。

 

(二)腾讯诉字节案

1.案件背景

深圳市的某计算机系统有限公司、某科技(深圳)有限公司以及某数码(天津)有限公司(以下合称为三家科技公司)共同运营微信产品。微信公众平台在其网站上设置了robots.txt文件,明确指出禁止任何网络爬虫程序抓取该平台的信息内容。然而,北京的一家公司利用网络爬虫技术大量抓取微信公众号上的文章,并将其用于自己运营的APP和网站中。在该APP和网站上阅读这些文章并不会为原微信公众号带来阅读量的提升,并且文章中不再包含广告。因此,三家科技公司向法院提起诉讼,要求认定该北京公司的行为构成不正当竞争,并判决其停止侵权行为、赔偿由此造成的经济损失等民事责任。


2.裁判要旨

(1)设定Robots协议以禁止其他经营者对数据信息的抓取,具有一定的合理性。

本案中,腾讯公司运营的微信公众号采用的商业模式,即网络用户(微信公众号主体)可以至该微信平台注册微信公众号,发布资讯、文章等信息,而其他网络用户可以通过关注公众号的方式浏览、评论、分享上述信息,给腾讯公司带来相应的流量;同时,微信公众号开放广告系统,广告主(有需求投放广告的用户)通过腾讯公司广告系统向腾讯公司购买广告投放位,流量主(希望通过推送广告变现流量获取收益的微信公众号作者)可以通过腾讯广告公司系统在文章中加入广告并获取相应的收益。腾讯公司根据广告主与流量主各自的需求和设定,匹配不同广告主的广告在不同流量主微信公众号文章的投放,腾讯公司可以从广告主以及流量主处获得收益。这种平台与广告或增值服务相结合的商业模式是本案争议发生时,互联网行业惯常的竞争模式,也符合我国互联网市场发展的阶段性特征,腾讯公司有权以此谋求商业利益,并因此获取竞争优势。为了保持其竞争优势,腾讯公司通过设置Robots协议禁止其他经营者抓取其微信公众号上数据信息,以此限制同业竞争对手抓取使用其数据信息,从而避免其面临市场竞争优势降低的风险,具有一定的合理性。但需要指出的是,即使本案中腾讯公司设置Robots协议设置具有一定合理性,但由于互联网环境的特殊性以及互联互通的要求,因此即使本案字节跳动公司违反腾讯公司的设置抓取其数据信息,也不当然意味着字节跳动公司的行为有不正当性,法院还需要通过评判字节跳动公司的行为本身是否违反了反法第二条第二款的规定,来最终予以判定。

 

(2)尽管使用网络爬虫技术抓取公开数据可能违反了Robots协议,但这并不必然表明该行为属于不正当行为。在本案中,法院最终并未将涉案的单方面数据抓取行为定性为不正当竞争。

按照常理,字节跳动公司抓取数据后必然进行使用,但因腾讯公司申请行为保全后,字节跳动公司停止了使用行为,但仍有证据表明字节跳动公司还存在抓取行为,腾讯公司在本案中也明确主张字节跳动公司单独抓取行为构成不正当竞争,故本案对于该行为也予以评价。法院认为,字节跳动公司单独抓取的行为持续时间较短,抓取的数据内容有限,现也没有证据表明字节跳动公司单独抓取的行为给腾讯公司带来何种损害后果,故腾讯公司关于字节跳动公司单独抓取行为构成不正当竞争的主张,法院不予支持。

 

(3)若通过网络爬虫技术抓取微信公众号的数据信息,且这一行为对微信公众号的产品和服务造成了实质性替代效果的,根据法律规定,该行为将被认定为构成不正当竞争。

用户通过今日头条看到的文章并无广告,广告主希望通过微信用户实现交易机会丧失,导致广告主继续投放广告的意愿降低,从而减少广告投放量;广告投放量的减少,流量主希望通过微信用户实现的广告收益减少,导致流量主继续使用微信公众平台的意愿降低;无论上述哪种情形,最终都将导致腾讯公司通过附加广告实现收益的交易机会丧失或减少。从上述事实来看,字节跳动公司在本案中抓取后的使用行为已经对腾讯公司构成了实质性替代,损害了腾讯公司的合法权益。


(三)两案对比

1745214971571.png


四、数据抓取典型案例对合规性的影响

在高德案、腾讯案等司法判例出现之前,尽管已对企业发出可能涉嫌不正当竞争、破坏计算机信息系统罪等风险的提示,但由于缺乏司法判例的支撑,因此实际的法律制裁主要集中于破坏计算机信息系统罪,而不正当竞争行为则未能得到有效惩治。如今,随着司法经验的积累,对合规性的要求已具备司法判例的支撑,从而使得数据抓取行为的合规性能够在司法实践中得到贯彻落实。在现行法律法规和司法解释的框架下,司法实践中对于涉数据竞争行为是否构成不正当竞争的判断,核心在于评估该行为是否具有正当性,是否对市场竞争秩序造成了损害,以及是否侵犯了其他经营者和消费者的合法权益。此外,还需考虑行为是否违反了诚信原则和互联网行业普遍认同的商业道德。特别是在判断互联网行业的竞争特点和技术特征时,不能仅仅因为原告遭受了损失就直接适用《反不正当竞争法》,在作出最终判断时,还需考察行为实际造成的损害情况。《网络反不正当竞争暂行规定》第19条规定,经营者不得利用技术手段,非法获取、使用其他经营者合法持有的数据,妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行,扰乱市场公平竞争秩序。相较于以往司法案例中的认定标准,《网络反不正当竞争暂行规定》项下认定构成数据抓取行为的门槛降低,体现出对数据抓取行为的监管态势有趋严倾向。

 

不正当竞争风险是数据抓取行为中最为常见的法律风险,构成不正当竞争的数据抓取行为通常涉及以下几个特点:

第一,实质性妨碍和破坏平台的正常运行;

第二,实质性替代对方的网络产品或服务;

第三,侵害数据主体的合法权益。


具体而言,需考虑多重因素:

1.数据获取类型(作品/个人信息等特殊权益)(公开数据/非公开数据——公开数据的爬虫获取,与用户浏览无异,在无合理理由的情况下,平台不应区别对待)

2.数据获取的技术手段是否遵守通用的技术规则,如伪造Cookie和Session,IP伪装,未经授权的API访问

3.数据使用行为:是否超出必要限度

4.爬虫数据产品是否会妨碍、破坏原告产品/服务的正常运行

(1)是否会产生数据/用户信息安全风险——个人信息

(2)是否会加重服务器运行负担——爬取频率


五、司法审判经验下对数据抓取行为的风险判断

(一)不正当竞争风险

如满足以下条件,可能被认定为不正当竞争:

1.存在实质竞争关系,即使A获益的行为会给B造成损害。

2.数据对被抓取方而言,具有竞争性利益,具体包括:收集加工等的投入大、有实用性、能够通过交易带来价值或能给被抓取方带来竞争优势。

3.抓取手段不正当,常见的不正当的手段如:

(1)破坏、绕开技术措施,包括:破坏数据持有者加密系统;破坏数据持有者设置的身份认证系统、用户登录系统;伪装成用户登录或模拟用户行为,欺骗数据持有者的身份认证系统;破坏、绕开反爬虫技术措施,如破坏、绕开封禁措施、IP访问限制等。

(2)实质性妨碍和破坏平台的正常运行的方式,如,通过高频次的自动化访问占用大量的服务器资源,导致服务器响应速度下降,影响正常用户体验。

(3)未遵守合理的robots协议,Robots协议是搜索引擎行业普遍遵守的技术规范,可以作为公认商业道德的参考,违反Robots协议的爬取行为,通常会认为具有不正当性。

4.抓取的后果:妨碍、破坏系统的正常运行;产生实质性替代;损害创新;损害本应获得的数据授权收益;损害消费者利益、竞争秩序等。

5.抓取公共数据,如系通过破坏规则的方式,或规模较大,仍有风险:在(2017)京0108民初24512号微梦公司诉云智联公司案件中,法院认为:对于公开数据,网络平台对他人的抓取行为负有一定的容忍义务,而对于被告抓取涉案公开数据的行为,其抓取行为破坏了原告相关数据的展示规则,且规模较大,具有明显主观恶意,故其抓取行为不具有正当性;

 

(二)知识产权侵权风险

借助数据抓取技术对软件代码、文学作品、音乐、视频等受版权保护的材料进行复制、分发或公开展示时,将直接侵犯知识产权权利人的合法权益。在(2018)沪0110刑初150号案和(2020)京0108刑初237号案中,被告人使用爬虫技术抓取了他人正版电子图书数据,随后在其推广运营的App中将这些图书数据提供给他人访问、下载,并通过广告和付费阅读模式进行商业牟利。法院审理后认定,被告人的行为侵犯了著作权人的合法权益,构成了侵犯著作权罪。

 

(三)侵犯个人信息权益风险

抓取公开个人信息的,法院会综合考量多种因素,包括但不限于信息的公开程度、抓取行为的性质和目的、对个人权益的影响等。抓取非公开个人信息的,未经授权的抓取行为可能侵犯个人信息主体的合法权益。以(2021)浙0110民初2914号案件为例,被告非法抓取原告“抖音”直播平台的非公开数据,包括用户打赏信息、主播收益等,并进行公开展示。尽管被告抓取的数据未直接包含用户的真实姓名,但结合主播的昵称、头像、直播形象等信息,可以识别出具体的个人。被告未经打赏用户及主播同意,擅自抓取并公开这些信息,其行为缺乏合法性基础,侵犯了用户的个人信息权益。


六、企业数据抓取的合规建议

1.尽量取得合法授权。
2.尽量抓取公开数据[1],避免爬取个人信息、他人享有著作权的作品、非公开数据、商业秘密等。
3.在抓取技术上,不应避开或突破被访问网站的技术防护措施,常见的破坏、绕开技术措施行为包括:破坏数据持有者加密系统;破坏数据持有者设置的身份认证系统、用户登录系统;伪装成用户登录或模拟用户行为,欺骗数据持有者的身份认证系统;破坏、绕开反爬虫技术措施,如破坏、绕开封禁措施、IP访问限制等。
4.遵守Robots协议、被访问网站所设置的用户协议、使用条款或服务条件、数据平台之间的双方或多方协议等。
5.避免大量、高频地爬取数据,防止破坏网站正常经营。
6.使用数据遵循“最小必要原则”,避免产生对数据持有者的实质性替代,即导致消费者无需使用数据持有者产品。
7.爬取并使用开源数据集,需要遵守开源许可证。
8.企业建立完善的合规管理体系,如制定内部合规政策和操作规程、设立合规管理部门和专员,定期进行合规风险评估、监测并及时整改违规行为,通过开展合规培训、建立奖惩机制以增强员工合规意识。

注   释

[1]公开数据与非公开数据的区别不在于数据持有人是否设置了访问的权限,而在于社会不特定公众是否可以通常的手段获得该数据。因此,如果某数据只存在于企业或政府内部,只供内部人员分析和整理,则属于私密数据,即非公开数据,而若某数据可以通过登录非企业内部账号、输入验证码或付费而为社会不特定人获取,则该数据属于公开数据,因为不特定公众仍能通过一般途径获取该信息。


原文链接详见:泰和泰研析 | 高德、腾讯等司法判例启示录:数据抓取合规性新风险与企业应对策略

返回