作弊手段和数据特征

不同得人,会有不同的人类,下面是根据我对垃圾流量的认识做的一个分类,我将垃圾流流量分为两类,一个是流量作弊,一个是流量劫持。
自动草稿

流量作弊就是弄些不好的,假的流量去替代好的好的,坑你。
流量劫持,就是强制用户看到某个页面或访问某个页面。就是你本来想访问凤凰新闻的,但是你最后跳转到今日头条了,这两家的诉讼是今年流浪劫持方面一个比较大的事情了,劫持来的流量可以增加你自己网站的流量,能更多的变现。

作弊流量可以细分成三类:
一是以次充好,将劣质流量包装成优质流量进行投放,这是目前倒卖流量的主要形式,如你买来的视频贴片CPM是5块的劣质流量,但你以优质的噱头,忽悠别人,卖出了25块的价格,就是挂羊头卖狗肉了;另一种是媒体主角度上操作,更改用户的变现,如,本来我投放的人群是,男的,年龄25~45的,有经济实力的人,但是媒体认为更改了用户的标签,将部分低龄层用户也纳入到这个人群去,消耗你的广告位。

二是以假乱真,将广告展示和点击代码放在非自然流量上,用非自然用户的行为进行作弊,通俗的讲就是机器人作弊;
最典型的就是机器流量了,机器流量也有不同的操作形式,如真机群,模拟器,服务API,真机群就是真的有这么一批机器,如手机,电脑,然后通过程序去自动点击,访问广告,智能化最高的形式了;模拟器是,通过一个软件工具,模拟大量的用户去点击访问别人的网站,这个真机群相比,不用购买很多的设备,通过模拟器调试,能够降低开发的难度;最后一个就是通过服务API,也就是请求一些文件,会在服务器有日志的,但是并不是真实的访问你的站点,如镜像网站。

脚本刷量,就是用程序去跑,模拟访问页面。
肉鸡,就是黑客通过的设备,黑客可以随意控制设备在在不知情的情况下去访问一些网站,
通常,脚本数量和肉鸡是相结合在一起的。
就是木马是在用户不知情的情况下植入的,通常隐藏在某个应用程序中,用户很难发现。这类木马需要比较高的技术。因为要root获得最高权限。安卓系统是比较容易获得最高权限,木马自动识别手机是否在黑屏状态。一旦是黑屏,仅需一两秒点几个按键,就可以神不知鬼不觉地关注某个公众号、点击某篇文章。被这种木马控制的手机,随时可以“秒关注”、“秒赞”、“秒阅”,即便是关注某个公众号、点击了某篇文章,微信用户也看不到这种操作,隐蔽性强。

以假乱真这种形式是最具规模效应的,但是它有一个天然的弊端,及时需要大量的新ip加入,因为旧的ip操作过于频繁,会被第三方工具检测出来。
三是暗渡陈仓,将广告素材隐藏在网页不起眼的位置或是植入代码,在上网者没有察觉的情况访问了广告链接,起到作弊的效果。
首先就是隐藏广告了,隐藏广告里面也有多种做法,如Iframe隐藏,广告重叠,媒体主交互,
iframe隐藏只是将广告请求隐藏在iframe里面,iframe是不会被访客看到的,也就是访客访问网站的时候,会请求广告,但访客看不到广告,这是一种对访客比较友好的形式,
广告重叠,就是广告相互叠在一起的,后面的广告没有被访客看到,这种形式通常存在于移动端,因为移动端的展示的面积有限,为了展示更多的广告,会采用重叠的方式,这样,在后面的那个广告,访客自然是看不到的。
媒体主交换,就是投放在媒体A的广告,出现在B的广告上,也就是你想让A网站访客看到的广告,实际是卡不到的。
这三种方式用于CPM结算的广告居多。

雇佣诱导,就是给钱或诱导访客去点击,雇佣的话,很普遍出现于淘宝刷单,不时会受到一些短信,你的信用蛮好的,想要刷单加XXXX,或说一些QQ群,人肉下载APP的;诱导就是刺激用户,这类通常是在三俗居多,另一个是qq群里的发消息就被踢出群的哪种,web端还有一种就是你要下载软件,但你点击下载了,下载到的是另一种的,这种应该是误导的,但也放到这个类型里面。

通常下载类的会采用这种欺骗方式。

重复流量就是定时更新ip,更新浏览器,设备识别码的方式,这是最早出现的作弊方式,也是成本最低的,所以到现在还是蛮流行的,很容易会被第三方工具检测到的的。

另一个大类流量劫持了,流量劫持就是你想访问A网站的,但实际你到了B网站,在请求的整个过程中,都有可能被劫持,如DNS,路由,数据包,网页,下载,通常只有运营商或一定规模的IT公司才有这个技术实力去做,劫持到的流量通常有三种做法。一种是引导到到自己的网站,然后再变现,一种是直接引导到广告主的网站,另一种是替换里面的信息,如广告,将自己的广告替换进入,访客看到的就是你的广告;劫持通常实现在http,如果你升级到https,数据做加密了,就没那么容易被劫持。
可以看到垃圾流量的类型是有很多的,五花八门。

作弊流量为了追求规模效益,所以往往会有一些比较明显的数据特征,作弊行为可以体现为:1、访问集中在某个特定时间内;2.某种不常见机型突然间数量很多;3.用户频繁更换IP地址,4、没有站内行为,跳出率很高…………

垃圾流浪的危害
对于善意的机器流量,在请求的表头会有标记,你也可以主动拒绝,但是对于恶意的广告,不由不得你说了,往往这类恶意的流量会带来不少危害。
自动草稿
首先,影响真实的数据,大量的垃圾流量访问网站,会对数据的真实性造成影响,如影响跳出率,在线时长,回访比例,这些数据往往会误导你做出错误的决策。
其次是,消耗广告费,提高了获客成本,垃圾流量消耗了部分的广告,导致有效广告费的量变现,分摊下去的获客成本就提高了,进而会影响广告主的广告投放决策,如果太高了,广告主可能不会继续投放这一类型的广告。
最后就是影响服务器的性能,对用户体验造成伤害,例如,你的网站本来的平均页面打开时间是在2~3秒的,现在有很多的垃圾流量访问你的站点,给你的服务器造成不小的压力,导致现在平均页面发开时间在十几秒,这么长的时间,对于真实用户,无疑是很大的伤害。

如何透过数据识别垃圾流量?

由于垃圾流量往往在数据上具有一定的特征,我们可以通过这个特征去识别垃圾流浪,通常是在流量端通过数据去识别:

方法1、查看主机名

自动草稿
首先第一个就是从主机名的角度,在GA中的用户,技术,网络这个报告中,将主维度选取为主机名,然后看这个
报告是否有除了你现有主机名之外的其他主机名,如果有,这些都是垃圾流量,这种垃圾流量产生的原因是,知道知道GA的跟踪id,我们就可以给这个跟踪id发送数据,以此类推,如果你要干扰你竞争对手的数据,可以将它的跟踪id挂在一些网站上去,这样它的GA就可以收到一些感受数据,为什么说是可能呢?因为这些垃圾流量可以用过滤器过滤的,如果对方开启了过滤器过滤,那么就不会对其产生营销。看图中, 出了第一个是自己的网站的流量,其他的都是垃圾流量,所以需要将其他的流量过滤掉。

方法2:IP的角度

自动草稿
第二种方法是从ip的角度,通常这种类型的造假是通过重复访问的额,也就是定义切换ip,清除cookie,但我们可以通过获取用户的id,看这个ip的数据,如某个ip在这端时间段的会话数真多,但是跳出率是100%,这种就是重复访问造成的,现在这种不常用,但是还是有人会用的,ppt里面的截图的数据是正常的,在这里只是作为一个方法讲解,GA可以通过一些设置可以获取ip的,具体的方法去网站上看,上面有教程。

方法3:热力图

自动草稿
这种是热力图的,正常访客进来,产生比较密集的点击,如果是机器流浪进来,点击会是很稀疏的,甚至是没有,通过这个可以对比分析出,这个来源的流量是否有机器流量,这是热力图的使用方法之一,如果有参加过我课程的同学,应该会在课程上听过的,书上也有讲解。没有找到能够对比的图片,所以放了地图的热力图做。这种方法的实用性不强,因为数据太少的话,真实的和机器的渠道都是会比较稀疏的,如果多的话,足够明显能够判别出这个渠道是垃圾流量,那么这个就是个很严重的问题,整个来源都是机器流量,推广的人要么是没发现,要么是知道不处理,这就是你们内部的问题。

方法4:维度中不应该出现的字段

自动草稿
维度中不该出现的字段,有些机器流量会产生维度中不该出现的字段,如下图中的语言C,GA的语言划分表示是采用国际某个组织的,这个里面是没有c这个语言的,也就是这个是机器的,在看看这个跳出率是基本是100%,那就跟坐实这个,你还可以在次级维度里面添加来源/媒介,继续定位这部分垃圾流量是来源于哪个渠道,作图中的c语言是搜过的ppc广告来的,如果广告系列高度集中就停止了该广告系列的推广,然后看看有没有申诉,如果有就去申诉,国外的adwords如果是问题流量,你可以申诉,举证,如果是,后面可以退换广告费的,国内的平台我就不知道的,不要觉得是大平台就没有机器流量,你稍不流量,就被机器流量耗费你的广告费了。
归于国内平台的流量,虚假流浪主要会是C语言,当然还会有其他各个乱套的字符,如右图,在去年特朗普竞选的时候,有段时间就出现很多有特朗普名字的垃圾流量。

方法5:异常好,无转化

自动草稿
异常好,无转化,如下图中的,跳出率是非常好的,可以说这个来源的访客在站内的表示是不错的,但是这个渠道完全没有转化,那么就需要注意了,这个很有可能是会有二次页面访问的造假形式,这个是比较很高级的作弊方法,能够将着陆页的各个指标模拟的很真实的,让用户很难判断,这时候就就需要看这个页面的在浏览器,设备,时间上的 分布集中情况,如果没有异常,再去页面行为流,看这个渠道在第二个页面之后的行为表现,如果第二页基本就退出,那这个很大可能是垃圾流浪。

方法6:异常集中
异常集中,如时段上,你的潜在用户跟踪不会在晚上访问你的站点的,你没做时间显示,晚上数据异常,有很多的流量在点击你的广告消耗你的广告位,这个直接就垃圾流量,目的为了消耗你的广告费的。其他的如地域,设备上的高度集中,可以作为辅助参考。

方法7:新用户=用户数=会话数

版权声明:本文内容以盗版加工为主,原创为辅,意在分享,收藏,记录工作中的点点滴滴。不代表任何组织,不代表任何商业机构,也不代表我个人所有想法。
心晴客栈 » 作弊流量的识别

发表回复