kl116201547 发表于 2016-2-26 15:36:20

完全听不懂你们在说什么呢,呵呵

bluescharp 发表于 2016-2-26 16:42:42

fei 发表于 2016-2-26 12:09
shuf test.txt> output.txt

这个屌爆了。我刚还准备用C#自己弄一个...

quanchengxue 发表于 2016-3-28 09:11:20

你一篇文章需要多少行数据?我的情况是每篇100行,一共200M的txt,分割成了200个txt文件,文件名1.txt到200.txt,php随机读取10个txt,每个txt随机取20行。1G的VPS上跑4个站完全没压力。

bluescharp 发表于 2016-3-28 15:29:44

quanchengxue 发表于 2016-3-28 09:11
你一篇文章需要多少行数据?我的情况是每篇100行,一共200M的txt,分割成了200个txt文件,文件名1.txt到200 ...

随机文章写入数据库吗?不然每次访问结果都不一样?
一共生产多少文章?我之前试过,不过不是直接句子的方式,也大概200M左右的语料库,效果不太好,没什么IP。

quanchengxue 发表于 2016-3-28 15:54:36

bluescharp 发表于 2016-3-28 15:29
随机文章写入数据库吗?不然每次访问结果都不一样?
一共生产多少文章?我之前试过,不过不是直接句子的 ...

不写数据库,直接生成缓存,或者直接生成HTML文件,缓存目录用两层,第一层用MD5的12位,第二层用34位,缓存文件名用md5命名。你用1层目录的话大概能放25W个页面,两层的话大概是6500W。而且看你站的生存周期,估计从收录到被K,两层目录应该绝对够用了。

bluescharp 发表于 2016-3-28 19:43:17

quanchengxue 发表于 2016-3-28 15:54
不写数据库,直接生成缓存,或者直接生成HTML文件,缓存目录用两层,第一层用MD5的12位,第二层用34位, ...

我之前也是用文件缓存。一方面是小文件太多,I/O效率低。另外一方面,删除起来不是一般的麻烦。
而且文件缓存占用空间比数据库要大。曾经尝试用redis,效果不好。
你一般生产多少页面?

quanchengxue 发表于 2016-3-28 22:20:25

bluescharp 发表于 2016-3-28 19:43
我之前也是用文件缓存。一方面是小文件太多,I/O效率低。另外一方面,删除起来不是一般的麻烦。
而且文件 ...

我的数据没你的那么多,最多的时候生成了200多W缓存,我自己的情况倒是没发现I/O效率低的情况,google爬最快的时候也就3秒1个页面,一个VPS上就放4个站,硬盘30G的也足够用了,毕竟数据量不算大。
你那个数据量大了不少,但是看你说服务器内存16G,其他配置应该也不会差,你可以试试这种方法。

gaozi 发表于 2016-4-5 15:40:35

quanchengxue 发表于 2016-3-28 22:20
我的数据没你的那么多,最多的时候生成了200多W缓存,我自己的情况倒是没发现I/O效率低的情况,google爬 ...

像你们这样的大数据盈利靠什么?亚马逊还是gg ads?还是其他?

Rekkles 发表于 2017-10-26 10:01:26

你媽个垃圾
页: 1 [2]
查看完整版本: 求个大文本乱序的工具