邮件地址库清洗方法 拙见1
本帖最后由 edm之旅 于 2015-9-12 18:02 编辑个人拙见,我相信肯定更好地工具,但可能我没有,所以有了下文。
当我拿到一批数据时,到发送,必然要经过数据清洗。
很多同行,清洗方法大致是,软件判断和发送看返回码。
我今天说下我的一些手法。
第一步:软件按照规则列表去除不和规则数据。
第二步:导出.com.cn.net .org 的域名(此处针对过滤。国外数据需要另外修改)
第三步:数据去重复
第四步:导入到我的地址库系统,和已有的地址数据做碰撞。
根据重复数据排序,重复几次,数据标记+1,最后得到的数据,重复率在1以上,可以作为初步清洗数据。
第四步:数据进入 user found 环节,被标记过域名错误,或者email不存在的数据,一律过滤。
经过上面4步得到的数据,已经比原始数据少取60%以上了。这个时候可以进行软件判断或者直接发送看返回码。
至于重复次数最多的一批,十又八九是活跃度最高的一批。
------------
PS:肯定有人要挫我,我只想说,我有数据库,压缩包补考虑重复的话,都有几百G了,整体数据量都是十E级的,我这么玩,还是能玩的出足够发送的数据的。
——————————————————————
补充:重复率最高的email地址为:[email protected](这当然是个假地址),在我库里,平均每个库出现几十次,合计重复了1万3000多次,纯当个段子给大家乐呵乐呵下。
LZ跟我清洗方法一样,支持下 99995 发表于 2015-8-29 22:52
LZ跟我清洗方法一样,支持下
谢谢支持~ 这数据量也太庞大了 求2.。。、 这种方法的精准性很差吧?没办法准确判断email是否存在,我现在是和Facebook, Youtube的User数据库对比,得出的结果准确率99%。而且基本上应该都是活跃的邮箱。 Mailerking 发表于 2015-9-12 13:52
这种方法的精准性很差吧?没办法准确判断email是否存在,我现在是和Facebook, Youtube的User数据库对比,得 ...
这个可以是 第一个环节。
你说的用户库对比,是reg方式吧。
有些网站限制的reg测试次数。
你对比fb 之类的,一小时大约能处理多少量。我打听下,我最近也在考虑用reg的方法再过一遍。 edm之旅 发表于 2015-9-12 18:00
这个可以是 第一个环节。
你说的用户库对比,是reg方式吧。
是的,我用socks5,几万个IP所以无所谓IP限制,每小时大概3,4万速度。 Mailerking 发表于 2015-9-12 22:08
是的,我用socks5,几万个IP所以无所谓IP限制,每小时大概3,4万速度。
国内库用reg方式很苦逼,造假20%的都是算良心了。
60%数据造假的我都见过,还是上市的那风投的大网站。
小网站,80%造假都正常。
reg很苦闷。 edm之旅 发表于 2015-9-12 22:17
国内库用reg方式很苦逼,造假20%的都是算良心了。
60%数据造假的我都见过,还是上市的那风投的大网站。 ...
国内的不熟悉,没怎么弄过:P
页:
[1]