广告位
首页 创业 专访李进斌:火车头采集器 站长的伴侣

专访李进斌:火车头采集器 站长的伴侣

本次采访站长是火车头采集器网站 ()站长李进斌。 采访人:一滴水 被采访人:李进斌 相信大家对火车头采集器非常的熟悉,它的发开者就是李进斌,一个80后年轻小伙子,网名火车头。 一滴水:你之前是程…

采访站长是火车头采集器网站 ()站长李进斌。 采访者:一滴水 受访者:李进斌 相信大家都很熟悉火车头采集器,它的发起者是李金斌,一个80后年轻人,网名火车头。

一滴水:你以前是程序员吗?

李进斌:不是。我学水利。大学毕业后,我从事水利设计一年。辞职后,我转行了IT发展的。

一滴水:原来是这样的。当时是怎么想到转行的? IT的呢?

李进斌:两个方面,对电脑和网络的强烈兴奋 有趣的是,以及对无聊工程设计的厌恶,最终放弃了原来的主要专业,但幸运的是。我在大学学习了双专业,辞职前收到了phpcms老板加入团队的邀请。

一滴水:去phpcms那边工作吗?

李进斌:恩,我在phpcms半年多了。 参 与开发了phpcms2007年的许多功能。当然。这段时间对我有了很大的提升。

一滴水:火车头采集器什么时候开发,开发这样的软件的想法和初衷是什么,开发过程中有没有遇到困难?

李进斌:2005年11年,火车采集器最早开发 月份。当时下班后,业余时间维护了自己的一个小网站。和大多数站长朋友一样,他们担心在网站上添加内容,需要频繁的数据更新,并从当时学习dede这个收集器是在收集思想后开发的。

在火车收集器的开发过程中,在早期阶段也遇到了一些小的技术困难,这些困难在短时间内得到了克服,最大的问题是,在我辞去了原来非常稳定的工作后, 长期以来,收集器一直在犹豫是否开发收费版本。感谢我们会员的支持,
没有他们,我们就不能一直坚持下去,取得今天的成就。

一滴水:刚才提到辞去稳定的工作是指phpcms那边吗?

李进斌:不,原来是在安徽水利厅计院工作。phpcms这主要是我个人生活的一个原因。西安太远了,然后我女朋友习惯了在家乡。

其实在phpcms早期版本的免费火车收集器已经发布。这个软件直到2007年9月才全职完成。

一滴水:那phpcms老板给你建议了吗?

李进斌:当然也有。我们现在一直在联系,经常聊几个小时。他和我一样有技术背景,有共同语言。

一滴水:呵呵,你是老朋友。现在越来越多的站长使用火车头作为网站。我们知道,收集往往意味着内容的重复导致信息泛滥。你觉得这个问题怎么样?你对主要依靠收集软件更新网站的站长有什么建议或建议?

李进斌:首先,网站需要不断更新。众所周知,软件可以作为人工辅助工具,帮助我们做一些非常机械的操作。收集器就是这样一个软件,可以帮助你实现早期数据填充,但作为维护网站内容的工具,你不应该认为自动化越好。

通过收集软件来维护和更新网站没有错。我们还在 有一批熟练“司机”它还依赖于软件来收集信息。关键是要知道你的网站需要什么样的内容,你收集和更新了什么,你应该知道。

一滴水:最近发布的2009官方版有哪些重大更新? ?

李进斌:前期采集和后期数据处理都有了很大的改进,与2008版相比有了很大的改进,简单列出了几条:

支持gzip,deflate网页压缩可以大大提高网页 下载速度.
重写下载模块,断点下载,大文件下载不再是 问题.
支持上传附件.发帖时可将附件上传到网站 ,更方便.
重写本地数据编辑功能,加载更快,处理更方 便.
支持.net外部编程插件可以做更复杂的工作. 比如下载视频.
支持多个标签的分词.准确性更好.
目录可以随机发布和保存.
支持网站部分post随机值.那些aspx网站网络类型 获取地址不再困难.
支持列表页面标签功能,在列表页面收集更多信件 息.

一滴水:功能越来越强大!

李进斌:嗯。哈,根据会员的建议,强大的功能需要每个人慢慢学习和体验。

一滴水:目前很多网站都增加了防收集功能。2009年新版火车头解决这个问题了吗?

李进斌:关于防采集。打开一个网页实际上是浏览器Http请求。还有其他搜索引擎蜘蛛,我们的收集器使用模拟的原理http我们可以根据这个原理模拟浏览器和蜘蛛。所以绝对的防收集根本不存在,只是难度。如果你认为搜索引擎的搜索也没关系。你可以用一些非常强大的activex,flash,我们无能为力。

2009年新版软件加强了来源判断,登录信息判断 ,POST方法要求、多页分页识别、循环内容收集等功能 php和.net对于外部程序接口,我们没有发现有多少防收集网站做得很好,只是一个难题。

一滴水:哈哈!看来火车头越来越完美了。

一滴水:火车收集器也分为免费版本、个人版本、标准版本 准版,企业版。所以这些版本是如何分类的, 他们适合哪些人?

李进斌:它主要根据功能的数量来划分。您需要根据自己的需要进行选择。高级版本大大提高了后期数据处理、大文件下载上传、自动化操作、分词翻译等功能。

一滴水:对于大多数站长来说,免费版本就足够了!

李进斌:是的。我们不限制收集的网站和任务的数量,也不限制在线web任何限制发布。对于普通用户来说,已经足够使用了。

一滴水:嗯。现在可能有一些新站长不会用火车头。你对他们有什么建议?

李进斌:首先,我们应该保持一种学习的心态。我们不能一键收集和发布软件。但是会有很多设置,需要手动和操作。

当你对软件的各种功能有了大致的了解,你就会 你会觉得鱼得水,完全按照你的意愿操作。网站数据更新也是一件非常快乐和具有挑战性的事情。

当然,在你收集之前,有几个建议:
1.别人经常采用的网站不要 去采
2.不要去太容易采摘的网站
3.不要一次收集太多,一定要注意后期处理
4.做好关键词,tag的采集分析
5.你自己的网站应该有自己的定位,而不是你自己的网站 关的内容
6.采集也应连续更新,自动采集功能 我们也有,但还是建议大家手动参与一些审核,或者定期发布

后期处理

1.给标题。内容分词。
2.用同义词近义词替换,排除不同敏感词 标签之间的数据集成是指标题内容之间数据的相互替换
3.在文章中添加摘要
4.为文章标题生成拼音地址
5.收集一些其他编码的网站,我们可以简单而复杂 身体转换,可以收集中文网站翻译成英文(虽然比较垃圾,但应该算是原创)

我们还发现,难收集网站的内容质量一般都很好,收集有时也是一件很有趣的事情,需要你学习一些收集相关知识。

一滴水:非常感谢您分享如此宝贵的经验。

一滴水:现在有多少人开发和推广火车头? 介绍你的团队。

李进斌:前天新搬了一个办公室,公司规定 模型稍微扩大了一点。目前主要有4人开发,6人客服推广。还有几个长期活跃的论点。 坛服务版主。

一滴水:规模在慢慢发展壮大!

一滴水:你们的团队优势和服务好吗?

李进斌:嗯,好的。有我的同学,也有从网络认识到现实的朋友。他们都很年轻,一起为同样的兴趣而奋斗。虽然我们没有 工作背景很深,但是学历可以211出来,精力充沛,很有激情。

除了操作收集器外,还制作了一些其他自动收集搜索软件,可以为站长提供这些技术服务。

李进斌:自动采集搜索软件主要是指数据 采集、转移、处理和索引优化。可为站长提供这些技术服务。

一滴水:嗯,慢慢拓展越来越好的技术,站长会越来越喜欢你。

李进斌:感谢小苏。

一滴水:太客气了!你的盈利模式是什么?

李进斌:商业软件的收入。一些技术服务支持和其他定制软件的开发。支持整个团队并不太高,但公司还不到一家 公司的发展和新的盈利模式仍在探索中。

一滴水:嗯,我希望你能探索更有价值的东西,更好地为站长和朋友服务。最后,让我们谈谈你未来的发展方向。

李进斌:稳定收集地位,继续提高竞争力,努力转型,为更多企业提供数据服务。

一滴水:小苏代表这里的所有站长朋友,祝你明天越来越美好!

李进斌:感谢门户提供的这个机会。 ,谢谢大家。

本文来自网络,不代表必三四立场。转载请注明出处: https://www.b34.net/shangye/chuangye/54960.html
广告位
上一篇
下一篇

作者: admin

为您推荐

发表回复

联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@wangzhan.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部