love0972 发表于 2020-6-1 16:27:51

请教用的什么工具抓取,python吗

aries910 发表于 2020-7-20 18:20:08

河马大大,请教下:全站主域名和各二级域名,全部使用Cloudflare,不会只是为了后面说的屏蔽CN的IP吧。。?

gatsby 发表于 2020-9-20 14:21:46

这个站好几年了,应该用的wordpress,它抓取的是今日头条,之前它的文章内容图片用的反向代理,自身不存贮图片节省了很多成本,后来图片链接地址变了,不知道是怎么做了。
另外也看到一些内容农场只抓取app新闻客户端的文章,这样就算原创了。

woaibaobao 发表于 2020-12-3 20:43:26

不明白的是为啥屏蔽CN的流量,既然是中文,屏蔽了大陆,又哪里来的那么大流量呢?

sky3918 发表于 2020-12-4 09:04:50

woaibaobao 发表于 2020-12-3 20:43
不明白的是为啥屏蔽CN的流量,既然是中文,屏蔽了大陆,又哪里来的那么大流量呢? ...

国内的流量不值钱 ,他主要面向港澳台,海外华人流量,这个就值钱了。

cooldgjk 发表于 2020-12-9 11:19:40

love0972 发表于 2020-6-1 16:27
请教用的什么工具抓取,python吗

工具不重要,重要的两点:
一是想办法屏蔽微信封锁,取得数据。
二是解决腾讯的版权风险。

咸蛋超人 发表于 2021-2-12 08:44:31

想问下这是用什么工具查的数据

woodie 发表于 2021-2-20 21:50:33

这个站真的是很多年了。始终不倒,走过了很多次算法大更新。

chenzhonwei 发表于 2021-2-24 08:22:19

很有想法国内打不开用了一个美国ip也打不开采集站

willok 发表于 2021-6-15 09:38:06

好像已经site不到了

lzs5240 发表于 2021-8-5 14:26:06

阿里云 腾讯云 搬瓦工都打不开 用了一个不知名小vps搭的富强才打开了
这个思路就是抓微信公众号的原创然后只给Google收录?

All 发表于 2021-8-5 18:02:07

虽然是采集的,但这个网站不算垃圾站了
在tw算是知名站了
页: 1 [2]
查看完整版本: 优秀垃圾站赏析(二)