广告位
首页 创业 UCloud技术副总裁杨镭谈技术价值观

UCloud技术副总裁杨镭谈技术价值观

去年,作为《穿山甲专访》系列采访之一,我们曾经给大家分享过UCloud技术副总裁杨镭先生的访谈。那是我和杨镭先生的第一次见面,虽然采访时间不长,但是他务实严谨的风格,也给我留下了深刻的印象。因此,这…

去年,作为《穿山甲专访》系列采访之一,我们与大家分享过UCloud采访技术副总裁杨镭先生。这是我第一次见到杨镭先生。虽然采访时间不长,但他务实严谨的风格也给我留下了深刻的印象。所以这次我特意预约了他的时间,去上海和他深入聊了七年。UCloud技术选择的道路和技术价值观与这位技术领袖从一线运维的思想产生了深刻的共鸣。

作为一名采访者,我也是一名从事互联网技术工作20多年的老兵。虽然我和杨镭对私人交往并不熟悉,但随着互联网、技术和开源话题的发展,我们很快就进行了非常投机性的交谈。

图:现场采访图

第一章 技术人员的成长史

主题从杨镭先生的技术背景和经验出发。

老王:你能先介绍一下你以前的技术背景和你的工作吗?

杨镭:我结合 UCloud 告诉你整个技术发展和我自己的情况。

我的背景是这样的。2006年加入盛大在线。刚入职的时候,从一线运维人员开始。大约两年后,我逐渐开始参与一些研发工作,做一些运维平台系统开发。

我跟老季(UCloud CEO 季欣华)是大概的 2008 我认识的,他当时在管盛大在线。盛大在线提供运维平台,支持各游戏部门的业务,包括盛大创新院等服务器。事实上,盛大在线提供运维。后来,当我们做盛大云的时候,我们承担了很多业务部门的运维工作,当时我在做平台技术。

那时包括 OpenStack 刚刚出现,AWS我们刚刚在中国知道,当时我们第一次通过虚拟化进行虚拟化 VMWare 我们一直在关注云计算的发展。 2011 年底,老季出来创业,问我有没有兴趣出来,我就出来了。

当时,我们认为运维应该走到前线,产生业务价值,云计算只是一种可以让运维和技术人员制造产品的技术。说白了,云计算就是把以前的运维放在舞台前赚钱。

从未发出的邮件开始…

杨镭:当我离开盛大时,我写了一封电子邮件,但我没有发出电子邮件。它一直存在于我的草稿箱里,现在还在那里。事实上,我对盛大也有很多感情。我们建立了整个平台,做了很多事情,但仍然很困难。

这封信的一般意思是,云计算确实可以解决许多问题,它可以使服务器灵活地升级内存而不关闭 CPU……有很多富有想象力的事情,事实上,这也是 UCloud初衷是我们创业的初衷,包括老季节,其实也是如此。那时候,每次我们出问题,他都知道,可能是哪个机房的网线插反了,也可能是哪个服务器配置不小心做对了,就像蝴蝶效应一样造成了严重后果。

出来的时候,我们只是想把云做好。

实践新技术, 到处吃螃蟹

杨镭:因为我不是从研发出身的,那时候 UCloud 创业并不容易。除了三位创始人,我们还有五名研发技术人员。当时,我参与了所有的运营、维护、开发和底层工作。

一开始我是做网络研发的,当时懂网络的人比较少,而我是做运维的。那时还没有 SDN 当我们开始做云计算时,主流的虚拟化技术是Xen,KVM 刚进入视野。当时我很关心 Linux 我认为核心技术 KVM 一定有发展,所以建议围绕KVM而不是Xen我们一开始就使用底层虚拟化 KVM 就是这样了,结果后面少走了很多弯路。

我的主要工作之一是虚拟机创建过程,这也与我以前的一些操作和维护知识相匹配。我在这方面做的很多工作主要是优化。事实上,有一个云计算产品的本质。如果云计算产品想做得好,有两个方面:

一方面,技术要做好,从研发架构层面来看,其可扩展性和稳定性较好;另一方面,你要真正了解这个产品。

比如云主机,你现在已经习惯了很多云计算产品的功能,但是 UCloud 一开始,我做了很多可能现在看起来不寻常的事情。为什么要做这些事?根本原因是我们对操作和维护有深刻的理解,所以我们敢先做这些功能。比如当时有个叫“重装系统”当时很多云服务商都没有这个功能——那时还很早,大约是 2012年的时候——这就是我现在回头看的原因 UCloud 这个阶段能冲出来的一个重要原因。

当时 SDN 也是如此。当时很多技术和框架都没有标准的开源,可以参考。例如,你可以使用虚拟化 KVM或Xen都能做 。因为当时我对网络一直很感兴趣,我以前主要做运维,对吧 IPtables 非常熟悉,检查了很多复杂的现网故障,所以对于IPtables在生产环境中的使用有一定的把握。当时我们就是这样去的。AWS的EC2.虚拟机中的抓包结合网络上的材料来分析背后的实现方案,然后用最确定的工具链来实现。我们很快就自己做了一套 SDN——当时还没有 Open vSwitch,它是 2013 年出来的——当时我们大胆地采用了这样的东西。现在你看 UCloud 发表的技术文章,我们都讲了技术实现的方法,但那时候你只能自己猜测和测试。

云计算的问题是什么?它的产品是技术性的。当客户使用您的产品和服务时,您联系客户的人员应该了解技术,尽管我们传统上认为很多事情仍然是商业和销售。但最终,你必须成为一个高质量的客户,因为只有高质量的客户,良好的业务,才能购买更多的云服务。高质量的客户不仅取决于客户关系,还取决于你的技术、产品和人员是否专业。因为这个原因,我后来在整个过程中 UCloud 在工作过程中,不断前进,做技术支持。当时,我们非常重视客户。我是一名解决方案架构师,甚至在业务部门参与了一段时间的销售工作。事实上,因为我被这个问题所推动,包括我的主要精力,我也负责产品和整体技术管理。

我的技术过程几乎是这样的,这也是 UCloud 近年来技术发展的缩影。

第二章 技术和价值观

老王:你的行为 UCloud 技术负责人负责人 TIC 我也听说过你在会议上说过 UCloud 从技术价值观的角度来看,我想知道你如何看待云计算技术在宏观和更高层次上的发展,以及它在这里传达了什么样的价值观?

「能力」——用工程能力解决技术问题

杨镭:然后前面的话题说。虽然方向是对的,但我们还是走了很多小弯路。我们有核心能力和能力UCloud核心技术能力的出现BUG当架构缺陷可以在当前网络中快速升级和解决时——这实际上是对我们后端无缝升级能力的巨大挑战。我自己的感觉是,一开始我不相信我能做到,但在第一年,我们做了很多这样的事情。

例如,在我们的产品上线后,我们做了弹性 IP 一开始很简单,我们做了几个设备,用了IPtables实现了弹性IP内网云主机的映射,放在两台机器上,有故障时服务自动切换,一切都很好。然而,上线后,我们开始发现问题。这两台机器不断停机实上,它们出现了“Kernel Panic”。因为一开始我们只有两个核心网络接入设备,一个是停机 50% 服务不可用,然后客户自然爆炸。但当时我们解决不了这个问题 “Kernel Panic” 问题是,虽然我知道一点核心知识,但我不知道核心代码层面的问题。我不知道为什么会发生,尽管我知道这一定是那个方向的问题。

我们该怎么办?老季节和我们在一起COO经常向客户解释网络故障的原因,比如中午和客户一起吃饭,告诉客户我们有什么问题,采取什么措施确保不再发生。后来,我们做了什么?我们大概花了 2-3 几天后,我们把两个集中式服务器变成了分布式服务器,因为在物理机器崩溃后,服务器挂断了,所以我们把服务放在虚拟机上,我们把两个放在每个物理机器上。例如,当这里停机时,这两个可以及时切换,而且因为是虚拟机,切换速度很快。我们写了一个自动拉起所有服务的脚本。两三天就完成了,这个问题得救了。如果当时不解决,可能当时不解决。 UCloud 就挂了。

直到我们的核心负责人来了,我们才依靠这个机制超过半年。最后,发现有什么问题?流量带宽控制确实有一个隐藏的地方 BUG,这个 BUG 其实连CentOS 都没修复——因为我们用的是 CentOS——它没有修复,我们也做不到。当时去查找 CentOS 在这方面没有发现补丁列表。最后是怎么发现的?后来上游发了修复,但是这个修复 CentOS 一直没有放进去。

你看,这本身就是一个非常深入的技术问题,但你可能无法解决创业问题,我们通过架构优化来解决它,这实际上是 UCloud 从成立第一年到现在的核心能力。经历了这件事之后,我什么都不怕。

杨镭:这是一种转换能力。这是整个 UCloud 通过技术文化,首先提供一个解决方案,这样我们的服务质量就不会降低。要做到这一点,我认为最难的是你需要对工程有深刻的理解。每个人都会说工程师很重要,工程能力很重要,但说实话,就像我开始来一样 UCloud 当我还说我是一名工程师时,我对此非常有信心,但在我第一年遇到并解决了很多问题后,我发现我不太明白。比如你看最近一些知识支付课程很流行。当我达到那个高度时,我告诉你这件事应该是这样的,应该是那样的。但如果你是一个才进入这个行业两三年的人,你就听不懂。你不知道该怎么办。你只能知道这句话应该是对的。这句话可能是对的,但在日常工作中,你第一时间无法反应,因为你不会深刻理解。

起初,我们的工程能力很强,因为这个基因来自于创始团队是当时最顶尖的工程团队。云计算自然对稳定性有很高的要求,非常工程化,对整个行业有着深远的影响。

「尝试」——当时胆子真的太大了,走在前面。

杨镭:当时我们遇到了很多挑战,我们开始第一代SDN 白盒交换机,当时没多想就上了,然后我们遇到了很多问题,最早用过 Open Switch。其实 UCloud几年前,我们在技术上走在了前列。因为我们规模小,决策快,我们的技术团队勇气大,敢于尝试新技术,因为我们对技术团队和我们的工程能力有信心。比如在网络层,我们有一套是用的 OVS,另一套是白盒交换机,我们在两套之间进行了无缝升级。我们勇敢,所以当时我们玩新技术。我还记得我在这里 2013 年出去做过 SDN 相关演讲,现在看来当时真的太勇敢了,走在前面。

当时大家都知道这是一种趋势,但没有人敢下结论如何发展,就像 Service Mesh 同样,现在绝大多数公司都在做研究和概念验证,我们已经在产品环境中运行,我们有点孤独。

从我自己的角度来看,当时我们的技术走得很快。我举个例子。例如,一些云服务提供商必须在两个地区之间开放。例如,从北京到香港,他们通常会告诉你找到第三方网络供应商来帮助你开放。而 UCloud 该怎么办?我们在底层有一条物理专线,用户只需在控制台点的两侧连接即可。大约在相当早的时候,我们提供了连接两个区域的功能。现在一些云服务提供商需要几天时间才能为客户连接,只要我们点击控制台,收费后,两个区域之间的所有虚拟机都将连接起来。

我记得在这个功能发布前夕,我们整晚都在做。 7 当时公司有人来上班,我在群里发了一条信息,说我们做完了,大家都很兴奋。虽然两个地区之间的云计算服务器连接起来很正常,但当时没有人这么做,当时我觉得很有成就感。

其实好几个 UCloud 早期的研发同事,他们和我有类似的事情,但我当时的领域都在网络上,他们的领域在其他方面。

整个云计算的核心实际上是一个技术问题。最后,如果你想在这个地方走很长一段时间,它本质上比技术能力更好。如果你不小心,你会落后的。

我再举一个例子,我们在 2014年下半年,招募了第一个DPDK 当时我们知道研发人员 DPDK 技术发展前景良好,所以我们招聘了这个职位;到了 2018 今年下半年,如果没有云产品, DPDK 技术,你的产品完全没有商业竞争力,你会卖得很贵,性能很差,而朋友会卖得很便宜,性能好,这是技术红利。DPDK 红利,但如果当时不投资,现在可能来不及了。DPDK 红利,但如果当时不投资,现在可能来不及了。这是三年,所以我们现在在做 Serverless 在这方面,投资相对较大,但如果我们不投资,我们可能会在三年或四五年后退出。 

杨镭:我们也做了很多有趣的事情。比如很多用户买了云计算的虚拟机后,因为密码不严格而被黑掉,然后变成了肉鸡发送的大量数据包。很多云服务商处理这件事都很简单粗暴,就是关掉你的机器,但是客户其实很受伤。当时我们没有这样做。我们看,不是外包吗?我们打开宿主机 TCP 来抓包,比如10秒的包——因为不能长抓,长抓的量太大了。——把它放在数据库里,然后我们去分析它 TCP 包的特点,进出比例,如果只是出站没有进站,那一定是利用攻击。后来我们发现,所有被反射攻击利用的特征都是这样的。我们发现,如果符合这一特点,我们将处理虚拟机网络——我们会把它的网络漂走,叫隔离区,不关机器,不影响别人,但他的虚拟机还是可以登录的。我们称之为最佳选择,但它在技术上非常复杂。

事实上,这不是纯技术的问题。这是一个概念。你应该了解技术、业务、数据分析和设计一套连接它的东西。

我们感到自豪的不是说这项技术非常强大,而是我们的朋友没有人这样做。我们做了几件类似的事情,最终推动了行业的发展,客户在UCloud在意识到好处后,他跑到其他云服务提供商那里说,你看UCloud这样做,其他云服务提供商别无选择,只能被样的功能。而这个功能并不意味着我们想出来超越谁。我们自己的研发人员关上门,对这种事情还是挺自豪的。从某种意义上说,我认为这其实是一种创新。

「价值观」——我们相信云计算是长期的

老王:你刚才介绍的UCloud作为一名技术人员,我也感到非常渴望。你认为你的技术团队的优势主要是在工程能力或技术文化方面吗?

杨磊:从我的角度来看,首先,这是我们的本质、文化或技术文化。在这个问题上,我们不允许所谓的不纯粹。因此,在管理方面,事实上,我们对刚才提到的这些事情有很高的要求。如果你是一个新人,你不同意文化,这可能不适合你。

另一方面,我们对整个技术的价值观要求很高,就像我上次和你谈的那样。除了不收集自己,我们还会帮助用户保护隐私,告诉用户不要给我们任何信息,而大多数公司则相反。大部分云数据加密,包括存量数据,我们将在一年多后完成。就像我们去年一样TIC会议上说,这里将坚决投资,而不是一个小的研发投资。因为说白了,用户可能没有自己的诉求那么强,往往没有这种意识。我们这样做是因为有很多股票云主机,数十万的规模,我们想透明,不影响性能,安全,钥匙定期轮换,不能总是钥匙,但轮换不能影响性能,所以在工程挑战和技术深度。说白了,这就是价值观问题,我们真的很重视用户的数据安全。

杨镭:虽然我们现在有很多人,但我们的产品线也很长,我们还不够。我们现在正在加班。直率地说,我们没有足够的时间来解决这个问题。说白了,这种事情在价值观上,你做不做可能没有区别,但我们认为从长远来看是有意义的。目前不会有太多的好处和好处,但从长远趋势来看,从我们的信念来看,保护隐私和数据安全实际上是每个人都会达到的共同目标,但我们仍然看不到。

所有这些事情实际上都总结到一点,你相信什么样的事情?我们相信云计算是长期的。我们与客户的合作不是一次性交易。我们甚至对客户有要求。我们都应该做得很好。从长远来看,这件事值得做吗?当然值得做。为什么要看长远?因为我们对自己还是有信心的。其实你的现在是过去决定的,你现在是为了未来,所以我们现在在这个层面上想的是三五年后。从总体趋势来看,我们所做的实际上是因为我们在前三年做了一些事情,我们坚持了一些事情,因为我们做了这些事情,我们活了下来。现在数据隐私,数据安全,或者很多 Serverless 我们相信产品在那个时代会更重要,所以我们坚持这样做。

第三章 尾声

老王:一方面,我们希望看到真正的技术人员现在在做什么。另一方面,我们希望让你看到这样一家公司在做具体的事情,这些事情是否会感动、激励甚至吸引他们的注意力或参与,这是我们希望做的。

我认为你很荣幸今天拒绝了很多采访邀请,并接受了我们的独家采访。一方面,我们可以继续关注您的技术进步。我们向您传播一些可能不值得一提的事件,但它们可能非常重要或更具传播性和示范性的事件。我认为今天的采访让我真正了解了很多我没有想到或观察到的事情。

杨镭:我从一个运维人员走到现在,现在做这件事我才发现原来是这样的。我想我能理解你,因为每个人都有不同的专业,我们每天都在这里做事,所以我们会考虑这方面。我希望这次采访能让你知道如何做得更好,但我们走在前面,我们是这个行业的人,我们有经验,我们传播,我很高兴,OK了。 来源:Linux作者:老王,中国

本文来自网络,不代表必三四立场。转载请注明出处: https://www.b34.net/shangye/chuangye/64739.html
广告位
上一篇
下一篇

作者: admin

为您推荐

发表回复

联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@wangzhan.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部