有通过彩票风控的么?
做过一段时间,不过不是完全按照题主的思路来的 (1)数据量太少,样本不够,模型效果肯定不行,而且时间跨度就几天,偶然性更大; (2)没有考虑不同号码区间出号的偏态情况,直接每个号码期次看出现次数和遗漏值,出现遗漏值大的反而忽略了,这种简单的方法对于正态分布的数据有效,但是对于实际情况效果不好;
(3)由于是随机抽样,所以最后的结果存在一定概率上的错误,这个没有办法避免。 如果按照题主的想法来做的话,需要采集大量的历史数据作为建模的数据源(至少一年以上),然后对历史数据进行必要的处理(去重、归一化等),再使用建模方法建立预测模型。当然最后测试的时候还需要使用新的数据对模型进行验证。
在采集数据的过程中需要注意以下几点:
(1)不能只采集自己购买彩票的历史记录,因为自己对号码的选择是有偏差的,而偏差会导致最终结果的错误(以自己为自己样本建立模型,除非你对自己的运气非常有信心);
(2)不要只看某几次或者某一阶段的数据,要看长期的数据,否则结果会出现偏倚;
(3)不要只采信一种版本的记录,比如电脑截图,要采信多种来源,且经过多次核对,以保证数据的准确性;
(4)注意排除不可抗力因素造成的意外情况,例如此次中奖的号码是在摇奖结束后,因通讯线路故障导致延时发布的,这种情况虽然罕见,但确实存在。
如果实在不敢保证数据的完整性和可靠性,那就只能抛弃这种想法了。