盈科原创丨以“启信宝”APP为例谈数据自动化采调集规_乐鱼体育在线直播|乐鱼体育直播下载
  •  网站地图 |
  •  加入收藏 |
  •  乐鱼体育直播下载 |
条码与RFID解决方案专家!
集条码打印、扫描、采集于一体化解决方案的高新技术企业
全国咨询热线

029-89353355

乐鱼体育直播下载 contact us

手机:18991830957
座机:029-89353355
Q Q:359316042
邮箱:xr@x-barcode.com
地址:西安市雁塔区雁塔西路158号双鱼大厦A座13层

企业公众号

产品推荐 Related

查看更多>>

当前位置 > 首页 > 产品中心 > 数据采集器

产品名称:
盈科原创丨以“启信宝”APP为例谈数据自动化采调集规

发布时间:2023-04-27 17:42:33 来源:乐鱼体育直播 作者:乐鱼体育直播下载

产品简介:
  数据搜集一般有自动搜集、自动化搜集、向第三方购买三种方法,上一期咱们介绍了自动搜集的合规关键。自动化搜集触及网络爬虫以及同类软件的合法运用,往往是数据合规的焦点和难点。本期咱们将以上海合合信息科技股份有限公司(以下简称“合合信息”)开发

分享到:
订购热线:18991830957 

咨询/订购

产品介绍

  数据搜集一般有自动搜集、自动化搜集、向第三方购买三种方法,上一期咱们介绍了自动搜集的合规关键。自动化搜集触及网络爬虫以及同类软件的合法运用,往往是数据合规的焦点和难点。本期咱们将以上海合合信息科技股份有限公司(以下简称“合合信息”)开发的“启信宝”APP为例解说自动化搜集数据的合规危险和关键。

  上海合合信息科技股份有限公司成立于2006年8月8日,旗下具有启信宝、手刺全能王、扫描全能王等多款抢手东西类APP。依据互联网揭露信息显现,合合信息首要经过智能文字辨认及商业大数据范畴的中心技能、C端和B端产品以及职业解决方案为全球企业和个人用户供给立异的数字化、智能化服务。2021年9月27日,合合信息向上交所递送科创板上市请求,现在正在上市审理过程中。

  合合信息自动化搜集的网站首要为全国各工商网站、各省律师事务所信息发表网站、各省社会组织信息网、各级人民银行官网,首要是政府机构等揭露信息发表的渠道。

  (一)数据搜集前完结合规评价:包含获取数据的首要类型、被搜集网站是否为政府揭露信息网站或商业性网站、被搜集网站是否具有 Robots 协议或公示条款约束自动化搜集、网站是否具有自动化搜集约束办法、自动化搜集数量及频率是否影响搜集方针网站的正常运转等中心要素。

  (二)公司内部清晰外部数据自动化获取的办理流程:由需求部分、数据搜集团队和法务进行审理后施行。

  (三)定时查看被搜集网站的规矩是否改变:公司拟定了相关的办理制度及流程以办理自动化拜访东西。经过对自动化拜访东西的代码扫描,以辨认是否存在正在运转的自动化拜访东西所实践爬取的网站规模超出公司自行维护的自动化拜访网站清单的状况。

  (四)延聘律师事务所供给企业数据办理及信息体系合规相关的法令服务并出具《关于上海合合信息科技股份有限公司数据安全办理的尽职调查报告》。

  网络爬虫技能(WebSpider,也称网络蜘蛛)的实质是经过阅读指定的网络页面,依据事前修改好的规矩抓取、处理、交融相应网络内容,再将该内容进行备份、树立索引并存储到自己的服务器中。爬虫技能最早是网络搜索引擎的关键性技能,在后期不断地技能迭代中,又细分为聚集网络爬虫(Focused WebCrawler)技能、增量式网络爬虫(Incremental WebCrawler)技能以及深层网络爬虫(Deep WebCrawler)技能等,使得爬虫技能逐步成为大数据公司或许SaaS类服务公司等新式互联网企业的宠儿。

  当方针网站回绝悉数或许指定的网络爬虫时,网站服务商或一切者能够在网站程序的开端部分写入一段代码,即robots.txt文件,以此标明约束搜索引擎爬虫机器人拜访的信息:User-agent:用于阐明搜索引擎网络机器人的姓名;Disallow:用于阐明不期望被抓取的网页或目录;“*”代表一切网络机器人;“/”代表一切目录;以“新浪微博”为例,其Robots协议设置如下1:

  依据“爬虫协议内容,微博运营者列明晰只允许包含百度、360等八个搜索引擎网络机器人爬取网站内容,其他的网络机器人制止爬取一切内容;一切的爬虫都能够爬取ads.txt文件(该文件用于躲避和防止广告诈骗和域诈骗)。

  依据咱们对近年来触及爬虫技能案子的整理,我国法院往往以技能中立为准则,在不否定爬虫技能的合法性的前提下,对爬虫技能的设定和运用设立了严厉的边界。咱们以为,一方面是出于鼓舞大数据工业开展和打破数据孤岛考虑,另一方面,不妥运用爬虫技能则会形成侵权事情。因而,企业在选用爬虫技能搜集数据时应当留意以下危险:

  如前文所述,咱们了解,Robots协议尽管名为“协议”,仅是一种网站程序编写的技能规范,并不合法令意义上的协议或许合同,但在我国司法实践中,法院更乐意将其确定为一种约定俗成的商业道德。依据《反不正当竞争法》第二条第一款的规矩:经营者在商场买卖中,应当遵从自愿、相等、公正、诚笃信用的准则,恪守公认的商业道德。因而,违背robots协议爬取数据尽管不会形成合同纠纷,但很或许会由于违背商业道德被确定为不正当竞争。比方在四川高院发布的2020年四川法院知识产权司法维护十大典型事例中2,字节跳动公司因未恪守Robots协议,很多抓取了腾讯公司及其相关的微信渠道的数据信息,成都市中级人民法院审理以为,字节跳动公司经过躲避他方对robots.txt文件的设置而抓取很多数据信息,其行为违背了商业道德及诚笃信用准则,具有不正当性。

  别的,现在市面上较为盛行的企查查、天眼查以及合合信息旗下的启信宝等企业信息聚合渠道,经过爬虫技能搜集各个政府机构等渠道和网站的信息,并经过信息加工终究给用户供给一个全面的企业画像服务,假如由于数据搜集质量问题导致数据失真终究形成“被画像”企业声誉受损的,数据搜集企业将会被确定为商业诽谤然后承当法令责任。比方,(2020)浙01民终4847号案子中,姑苏朗动网络科技有限公司运营的企查查未审慎处理从国家企业信用信息公示体系中爬取出来的数据,过错发表蚂蚁微贷公司清算信息,终究一、二审法院均确定为构成商业诽谤和不正当竞争。

  依据合合信息的首轮问询回复,其在数据搜集前会针对被搜集网站的是否具有Robots协议或公示条款约束自动化搜集、网站是否具有自动化搜集约束办法、自动化搜集数量及频率是否影响搜集方针网站的正常运转等中心要素进行评价。

  咱们了解,比较于疏忽robots协议内容,更值得引起注重的是,若使用技能办法假装或许绕开方针企业的反爬虫设置进行数据爬取的,或许会直接触及刑法第285、286条规矩的涉嫌不合法侵入核算机信息体系罪、不合法获取核算机信息体系数据罪、损坏核算机信息体系罪。例如2016年“车来了”经过爬虫假装成乘客对深圳市谷米科技有限公司推出的实时公交查询软件“酷米客”进行长达两年时刻的不间断爬取,终究导致“车来了”所属的武汉元光科技有限公司多位高管被确定为不合法获取核算机信息体系数据罪予以刑事追责。

  合合信息特别阐明晰其爬虫脚本运转前,数据技能人员结合“Alexa”数据评价方针网站一天的总拜访量,以此核算自动化拜访程序每秒的拜访频率上限,并在自动化拜访程序装备阶段对并发数和拜访频率进行恰当的约束。假如经过爬虫技能导致“被爬取方”的网站因负荷满载而无法拜访,“爬取方”或许会涉嫌违背《刑法》第286条的规矩构成损坏核算机信息体系罪。比方在(2019)粤0305刑初193号案子中,被告人开发的爬虫软件以每秒183次的频率拜访拜访“深圳市居住证体系”,导致“深圳市居住证体系”中止运转超越2小时,被确定构成损坏核算机信息体系罪并判处有期徒刑。

  依据《网络数据安全办理条例(征求意见稿)》第17条第1款的规矩,数据处理者在选用网络爬虫等自动化东西拜访、搜集数据时,应当评价对网络服务的功用、功用带来的影响,不得搅扰网络服务的正常功用。一起,依据《数据安全办理办法(征求意见稿)》第16条规矩,如当选用爬虫技能拜访搜集流量超越网站日均流量三分之一时,或许会被以为严重影响网站运转。因而,咱们主张,企业在经过爬虫等自动化东西爬取数据时,应当在事前进行评价,评价内容首要包含:

  除了事前评价,由于网站robots协议的设定以及网站的流量、内容等不具有确定性,咱们主张在发动爬虫东西后应当设置定时审理、评价和校准程序,继续的盯梢自动化搜集数据的合法合规性问题。

  别的,为了防止数据瑕疵等问题,咱们主张企业应该采纳技能办法,穿插比对和验证经过爬虫搜集的数据质量,定时评价和调整验证基准,尽量爬取政府官方揭露数据源,防止由于数据失真导致的进一步侵权危险。

  ②腾讯科技(深圳)有限公司、深圳市腾讯核算机体系有限公司、腾讯数码(天津)有限公司与北京字节跳动科技有限公司、成都天翼空间科技有限公司不正当竞争纠纷案。

  拿手范畴:公司法令危险办理、民商事诉讼、公司股权办理、并购重组、公司改制重组、项目收买。

  特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。

  稀有!部分银行新发借款与理财收益已现倒挂,业界:要警觉资金空转套利,未来存款利率仍将下行

  声称比美GPT-3.5,并且免费!ChatGPT的替代品来了,要拆掉OpenAI的围墙!

  谷歌Google I/O 2023亮点:AI赋能Pixel,Android14令人兴奋

上一篇:FreeBuf早报丨这些网站和A 下一篇:集搜客GooSeeker网页数据

在线留言Online message

联系方式address

公司:乐鱼体育在线直播|乐鱼体育直播下载
电话:029-89353355
手机:18991830957
地址:西安市雁塔区雁塔西路158
           号双鱼大厦A座13层
陕ICP备16017194号  
陕公安网备 61011302000213号

扫码开启行业服务新标准

姓名:
电话:
邮箱: