想做一个原创文章生成工具,想问问大家的意见
本帖最后由 damonfu 于 2017-11-12 12:13 编辑做个人网站,原创内容是件让人头疼的事情,目前我的办法是把内容用RSS内容聚合工具整合起来阅读筛选。
http://www.tiangr.com/ 甜果网的一手新闻和每日推荐就是用这种方式更新的,每天大概要花费我一个小时的时间更新。
但对于大多数做联盟,淘宝客的朋友来说,这样更新文章还是太慢了。
刚好最近我一直在研究数据爬虫,和翻译SDK。就在想如果能把外文文章和中文文章采集下来然后互译,这样就会有大量的原创文章。(PS:这个办法不是什么新鲜的办法,但是之前出现的问题是,翻译过来内容可读性太差,如果使用SDK,可以相对提高可读性。)
为了提高文章采集的准确度,可以模仿今日头条选择你想要的文章分类。
甚至后期可以打通wordpress接口,直接推送文章到你的后台。
目前我能想办法获取文章的渠道可以包括微信公众号,大量英文博客等等,后期也可以自己提交想要获取文章的站点。
具有上述功能的工具想问问大家有没有付费的意愿,如果收费,大家认为多少钱合适,还有什么值得加入的功能。
==========================================================================
有朋友认为高质量的翻译软件才是大众的需求,而爬虫只是小众需求,对于这一点,我想做个调查,问问大家的看法。另外,如果翻译是大家的刚需话,要为这个翻译加上哪些功能才会更好用呢?
希望大家集思广益,给出自己的看法,如果这款软件真的最后做出来,我会给提出并采纳了的建议的朋友内测资格。
这个应该有大公司在做
感觉很AI l890908 发表于 2017-11-11 16:17
这个应该有大公司在做
感觉很AI
和AI有差别 没有用到人工智能方面的东西 没有智能分析用户喜欢的文章 如果做到这一点就变成今日头条了 其实我做这个的目的主要是给批量做站的站长提供优质的原创内容 机翻的文章不是可读性太差,而是完全没有可读性。 qwa2013 发表于 2017-11-11 18:12
机翻的文章不是可读性太差,而是完全没有可读性。
嗯 一般用google翻译的确可读性很差,但是你可能没有了解付费的自然语言翻译SDK。
下面这段英文是我用SDK翻译出来。
Keith Schiller, Donald Trump's longtime head of security, told congressional investigators that he rejected an offer to send five women to Trump’s hotel room during a trip to Moscow ahead of the Miss Universe Pageant in 2013, sources tell ABC News.
In a four hour-plus meeting with congressional investigators Tuesday, Schiller was questioned about the 2013 Moscow trip with Trump and the president's firing of former FBI Director James Comey.
Sources say Schiller told Congress he believed the offer was a joke, and that he responded to the offer by saying Trump was "not interested."
He told Trump about the exchange several hours later and the two laughed about it, Schiller told investigators, according to sources familiar with the interview.
据知情人士透露,唐纳德·特朗普(Donald Trump)的长期安全主管基思·席勒(Keith Schiller)对国会调查人员说,在2013年环球小姐选美大赛之前,他曾拒绝派5名女性前往特朗普的酒店房间。 周二,在与国会调查人员举行的4个小时多的会议上,席勒被问及2013年莫斯科与特朗普的访问以及总统对前联邦调查局局长詹姆斯·科米(James Comey)的解职。 消息人士称,席勒告诉国会,他认为这个提议是一个玩笑,他回应了这一提议,称特朗普“不感兴趣”。 据知情人士透露,席勒对特朗普说,几小时后,他告诉特朗普有关交易的消息,两人都笑了。 qwa2013 发表于 2017-11-11 18:12
机翻的文章不是可读性太差,而是完全没有可读性。
还有一点忘记告诉你,AI技术也在提高自然语言翻译的能力,而且这两年来进步明显。 你有使用翻译sdk的费用,用户购买你工具的价格肯定不便宜。
你要透露一下你翻译sdk的成本,大家才好估计价格 加油搞,翻译质量好谁还请老外写,贵的一B,质量还不高!!! 本帖最后由 damonfu 于 2017-11-11 23:16 编辑
willok 发表于 2017-11-11 21:06
你有使用翻译sdk的费用,用户购买你工具的价格肯定不便宜。
你要透露一下你翻译sdk的成本,大家才好估计价 ...
嗯 你说的对 SDK的成本大概是 80元/百万字, 妮妮悄悄来了 发表于 2017-11-11 22:25
加油搞,翻译质量好谁还请老外写,贵的一B,质量还不高!!!
嗯 我想问问上面那个SDK翻译出来的质量如何 你能接受吗?
我再拿一段示例给大家看看
Ex-wife of Texas church gunman Devin Kelley says he once put a gun to her head over speeding ticket
The ex-wife of Texas gunman Devin Kelley said he frequently displayed violent tendencies and once put a gun to her head over a speeding ticket.
Tessa Brennaman, 25, said her former husband, who killed 26 people after opening fire at the First Baptist Church in Sutherland Springs earlier this month, “had a lot of demons or hatred inside of him”.
Describing how Kelley, a former US Air Force airman, had once threatened to kill her for getting a speeding ticket, she told CBS News: “He had a gun in his holster right here and he took that gun out and he put it to my temple and he told me: ‘Do you want to die? Do you want to die?’”
Kelley had also threatened to kill her and her entire family, she added.
德克萨斯州教堂枪手Devin Kelley的前妻说,他曾在超速罚单上向她的头部开枪 德克萨斯州枪手Devin Kelley的前妻说,他经常表现出暴力倾向,并曾在超速罚单上向她的头部开枪。 25岁的Tessa Brennaman说,她的前丈夫在本月早些时候在萨瑟兰·斯普林斯(Sutherland Springs)的第一个浸信会教堂开枪打死26人之后,“在他体内有很多恶魔或仇恨”。 描述如何凯利,前美国空军飞行员,曾威胁要杀死她得到超速罚单,她告诉哥伦比亚广播公司:“他有枪插在这里,他把那支枪,他把我的太阳穴,他告诉我:“你想死吗?你想死吗? 凯利还威胁要杀死她和她的整个家庭。 willok 发表于 2017-11-11 21:06
你有使用翻译sdk的费用,用户购买你工具的价格肯定不便宜。
你要透露一下你翻译sdk的成本,大家才好估计价 ...
我想这个SDK的成本不高 一般人都能接受
但真正高成本的 并不是这个SDK,是爬虫用的服务器,还有一部分成本是代理池。
不过最高的成本是我的时间成本,这个系统的爬虫技术要攻克不少难点,因为要采集很多个新闻源,否则就没法保证文章质量了。
只有使用的人多,有需要的人多,我才会去开发这款产品,否则肯定就收不回成本了。 爬虫技术在编程技术栈中其实不算难,如果你是java系推荐在webmagic或heritrix等开源爬虫框架的基础上做二次开发,主要是反爬不好解决,不过你初期可以忽略难爬的文章。
最开始不需要配独服来爬,普通1024MB内存的vps足够,代理池最近几年在爬虫业界使用的效果越来越差,已经很鸡肋了。
其实不一定要卖产品,你开发好自己用更划算,每周7个站,每个站不同语系,配上自动更新,监控流量,自动添加ads代码。虽然现在google不像以前那样好伺候,但稳稳的每月收入至少够你小康吧。 本帖最后由 damonfu 于 2017-11-12 10:44 编辑
willok 发表于 2017-11-12 10:02
爬虫技术在编程技术栈中其实不算难,如果你是java系推荐在webmagic或heritrix等开源爬虫框架的基础上做二次 ...
反爬不就是属于爬虫技术吗。我用Python,爬虫使用的框架有蛮多选择。
你如果要给大家用就不能太低配置,所以我问的问题是大家觉得这个工具有没有吸引力,至于你说代理池是不是鸡肋,这个要根据实际情况来判断。
但是你说开发给自己用,主要是我没有做wangzhuan的经验,我是专职做web开发的,业余也只是做做电商,并没有玩过wangzhuan,不过,我倒是想按照你说的去实践一下。 damonfu 发表于 2017-11-12 10:36
反爬不就是属于爬虫技术吗。我用Python,爬虫使用的框架有蛮多选择。
你如果要给大家用就不能太低配置, ...
如果你的产品里面自带反爬,那就更不好估价了。普通用户一般都不懂这个的技术含量,而且不同的网站反爬难度不一样,你还得根据目标站人工报一次价,太麻烦了。同时你的标价和普通用户的期望价格会有较大的落差,不利于销售。
ps:如果你的产品里面有比较nb的反爬,那这个工具对我是很有吸引力的,哈哈 请问大家这个sdk究竟是个啥,在哪里有平台使用或者是个软件吗?想试试。多谢啊
页:
[1]
2