泄露个人隐私和窃取商业秘密?数据抓取的合理边界在哪里?

数据爬行的基本原理是什么?数据抓取是非法的吗?如何在大数据环境中规范和管理数据爬行?10月11日,在上海社会科学院国际创新中心举办的“数据治理系列沙龙”第四届“数据爬行治理”分享会上,多位法律专家和行业成员就这些问题进行了深入讨论。< p >

泄露国家秘密

上海“数据治理系列沙龙”第四期——“数据爬行治理”共享会场

数据抓取的技术原理

数据抓取是指使用“爬虫”在互联网上抓取信息的行为或过程

益敦(上海)智能科技有限公司CEO朱表示,数据爬行最初就像一个搜索探针,它通过按照指定的规则遍历网络内容来收集和提取所需的网页数据,并由技术人员存储或重新处理。如今,数据爬行获得了各种各样的信息,不仅在互联网网站上爬行信息,而且在不同场景中爬行公民、电信、旅行、社交网络、电子商务、银行记录和其他维度的数据

朱提到,从数据源来看,爬虫可以分为web爬虫和界面爬虫网络爬虫是一种早期的爬虫,它根据网页上的超链接进行遍历,并从网页中提取数据和信息。它最常用于搜索引擎。在大数据时代,新的接口爬虫通过准确地构造特定的API接口请求来获取所需的数据信息目前,在网站或应用程序的注册协议和隐私协议中获得用户自愿或无意的授权后,导致问题的爬虫公司经常使用授权信息登录网站或访问应用程序接口来获取用户的个人数据和网站数据。一些爬虫甚至有能力突破网站本身设置的控制来获得受保护的数据。这些数据不是完全公开的,涉及用户隐私和网站业务信息,对爬虫来说正是危害的来源。

何认为数据爬行需要辩证看待善意的爬虫是一座对网站和用户都有利的桥梁。例如,搜索引擎抓取网站的所有页面,为其他用户提供快速搜索和访问,给网站带来流量。然而,非法爬虫会威胁用户和互联网服务提供商存储在网站服务器上的个人数据,从而侵犯用户隐私和服务提供商的商业信息,带来法律风险。在现实商业世界中,大量案例都与爬虫入侵商业数据和形成不正当竞争有关。

数据抓取法律纠纷

数据爬行作为一种高效的数据收集实现形式,是国内外许多互联网企业非常普遍甚至是生存的手段。然而,随着围绕数据自动化技术的爬行和挖掘活动的迅速增加,在数据所有权、知识产权和商业秘密的保护、个人信息的隐私限制、不公平竞争等方面出现了巨大的争议。近年来,在金融、内容、电子商务等各种场景中,数据爬行事件频繁发生,对互联网和大数据业务格式产生了重大影响,引起了业界、监管机构和全社会的广泛关注。

2019年1月,中央互联网信息办公室、工业和信息化部、公安部、市场监管总局发布《关于开展应用非法收集和使用个人信息专项治理,开展个人数据爬行专项执法活动的公告》;5月发布的《数据安全管理办法(征求意见稿)》第16条明确规定,网络运营商应采取自动化方式访问和收集网站数据,不得妨碍网站的正常运行。这种行为严重影响网站的运行。如果自动存取和收集流量超过网站日平均流量的三分之一,网站应在请求停止自动存取和收集时停止。

上海交通大学数据法律研究中心执行主任、法学院副教授何元表示,从数据类型来看,数据爬行可能侵犯的合法权益包括“三个安全一个稳定”和“两个秘密一个隐私”,如计算机信息系统安全、公民个人信息、版权、国家秘密、商业秘密、市场竞争秩序等。从数据抓取的方式来看,存在非法获取数据的法律风险,如危害计算机信息系统安全、非法获取公民个人信息、非法获取商业秘密、破坏版权保护措施等。从结果来看,存在非法使用数据的法律风险,如不公平竞争、侵犯版权和侵犯人格权。

公安部第三研究所网络安全法研究中心主任黄道里认为,数据爬行是否涉及处罚,需要综合考虑数据类型、爬行方法和爬行结果就数据类型而言,它们是否受法律保护,如个人信息、版权数据、商业秘密、国家机密等。正常情况下,是否获得权利人的合法授权直接影响上述数据爬行行为的法律定性就爬行方法而言,它需要查看服务器是否被入侵以及数据是否被非法获取。就抓取结果而言,对方网站和服务器的正常运行是否受损是影响犯罪与非犯罪判断的重要因素一般来说,对合法利益的侵害越大,风险就越高。

十二生肖李提到,爬行个人信息、商业秘密、版权数据和国家秘密以外的一般数据一般不构成侵犯民事财产权,但更容易暴露竞争法风险。相应地,在刑事领域,它一般不构成财产犯罪,更有可能面临侵犯计算机信息系统安全和数据安全犯罪的刑事责任风险。

上海金田市律师事务所高级合伙人吴伟明表示,需要明确数据抓取的合理界限。从对象的法律角度来看,有必要判断抓取的数据类型,避免抓取禁止收集的数据类型,并根据数据类型设置不同的入口阈值就法律手段而言,必须通过公开或合作的渠道遵守权利声明和披露规则的限制,不得使用侵入性或非法的工具等。此外,在数据抓取中,相应的权利持有人如个人信息主体、版权所有人、信息系统权利持有人、网站运营商等的同意。必须获得。

数据爬网的相关治理

上海市委互联网信息办公室政策法规司司长孙洁表示,自今年以来,随着数据治理政策在中国的大力推行,数据爬行已成为中央和地方互联网信息监管部门关注的重点领域之一。积极研究数据爬行治理问题,探索有效的监管模式,对上海各界都具有重要意义。上海市经济和信息化委员会软件与信息服务部的刘文认为,目前各类互联网企业都将涉及不同类型的数据抓取应用。在监管力度加大、合规压力加大的背景下,帮助企业规范数据采集业务、提高合规能力成为上海数字经济产业高质量发展的现实需求。谷玮,199

阿里巴巴法律研究中心的副主任,从公司的实际角度分析了数据爬行的实际困境。他提到,目前半封闭的应用程序已经成为一种趋势,数据四处爬行无法破解加密技术,而且经常存在法律风险。在大数据时代,人工智能和其他技术的发展需要大量的数据来支持。此外,行业内的竞争越来越激烈,“搭便车”行为激增,竞争对数据的破坏也越来越严重。他认为,当前需要以包容和审慎的态度对待数据爬行,重点是通过反不正当竞争法和生产权利法解决纠纷,通过立法规范爬行确保利益平衡,进一步推动网络平台上数据的有序开放。网络运营商应明确倡导数据所有权和针对爬虫的协议保护,采取APP接口加密、访问知识产权限制等技术措施,收集明显侵犯合法权益的爬行行为证据,举报或起诉明显违法或侵犯公司合法权益的行为,积极寻求商业合作空间腾讯网络安全与犯罪研究基地高级研究员

张宝丰认为,可以通过采取反爬行技术措施、设置明确的反爬行声明和版权信息、及时监控以及积极维护权利来防止恶意爬行。关于网络爬虫技术的合理应用,他建议应遵守互联网行业的机器人协议,并应检查反爬虫措施,如知识产权壁垒和认证机制,以避免逃避认证系统和加密算法获取数据和主观恶意。为了区分爬行数据的性质,应该避免爬行未经授权的个人信息、他人的受版权保护的内容、企业或机构的内部数据、商业秘密等。,并制定禁止爬行的信息类型列表。为了限制数据使用的目的,个人应严格在授权范围内使用数据。商业目的应避免使用“白吃白喝、相残相肥”的形式,并避免取代其他商业主体,从而承担不公平竞争的责任。控制爬行的频率和数量,避免因爬行的频率和数量等给目标网站服务器造成很大负担。

上海数据治理沙龙是上海数据治理与安全产业发展专业委员会在上海市经济和信息化委员会和上海市互联网信息办公室的指导下举办的公益性专业研讨会。它关注数据治理和网络安全的前沿和热点问题,汇聚研究、用户、制造商和律师事务所咨询机构等各种专业力量,进行持续交流,吸收各方意见和建议,并向国家和上海市相关管理部门提出建议,为上海数字经济的健康发展贡献专业力量。本次沙龙由上海金田市律师事务所和网络研究所主办,上海社会科学院互联网研究中心和阿里巴巴数据安全研究中心协办。

大家都在看

相关专题