亲爱的用户,你好:为了提升您的访问速度,我们根据您的IP地址,为您推荐直接浏览Dealmoon中文站。
请选择:
继续浏览中文站 浏览英文站
篱笆老师
篱笆老师
关注
篱笆老师 10 知识达人
1 关注 308 粉丝 1079 被喜欢

发布了晒货 21小时前

你真的适合转码吗?五个问题帮助你抉择!

程序员作为当今社会最热门的高薪职业,吸引着一代又一代各个专业的学生,这几年你会听到有文科,商科等很多非计算机专业的人都在分享转码的经验,但是,步入程序员的大队列不是一场结束,而是真正的开始,我有看过很多同学转码后很开心,因为不断地在学习并且工作也很decent, 同样的,也有不少转码失败或者成为程序员后不久就quit的同学。所以说转码并不适合每一个人,这是我们理解转码这件事情的前提。 在走上转码之路前,我设计了一个即为精简的加减分问卷,希望帮助大家做出适合自己的决定: 从高中到大学再到研究生,你的理科成绩怎么样?逻辑思维能力如何? a. 自我感觉还行(+2) b.一般般(+1) c.有点拖后腿(+0) 2. 在学习生活中,你遇到无法解决的难题的时候,你自然的反应会是什么? a.先搜集资料,自己分析并解决问题(+2) b.先询问他人,汲取经验,从他人的帮助中获取解答(+1) c.被动等待其他人帮忙或者放弃(+0) 3. 在解决难题的过程中,你的心态是什么样的?(debug的容忍度) a. “有些难,实在不行休息会之后再来想想”(+1) b. “我喜欢解决难题,一步步来尝试吧”(+2) c. “太难了,我肯定解决不了”(+0) 4. 你是更喜欢面对客户群体工作,还是更喜欢一个人研究。简单来说,更喜欢和人打交道还是更喜欢独处? a.喜欢独处(+2) b.喜欢和人打交道(+0) c.都可以(+1) 5. 你的转码决心有多大?(动力是很重要的因素) a.一定要转码不可(+2) b. 可以努力试试,行不行都可以接受(+1) c. 感觉不是很有信心,纯当试试(+0) 同学们可以把自己对于以上5个问题的答案记录在小本本上,然后把这些问题的得分加起来,分数在6-10之间,我会选择鼓励你来尝试转码,分数低于6不代表不适合,但一定会有一段很痛苦的时光,如果愿意做出改变也是会有相应的收获的啦。人的这一生有很多选择,如果盲目从众,并不一定会让自己快乐,所以篱笆老师建议大家选择合适自己的道路。 最后,希望大家都能从事自己最热爱的职业,理智转码!

晒货图片

发布了晒货 5天前

篱笆教育 | 他终于入职500强!

编者按: “Capital One”公司是美国第一资本投资国际集团,2022年8月,第一资本金融公司入选2022年《财富》世界500强排行榜,对待企业员工的福利待遇自不必说。今天采访的主人公便拿到了这家公司的offer,但是并不是像漫威主角一样,他的求职之路并不是一帆风顺,中途他一度想要放弃北美求职之路,让我们一起看看他是如何升级打怪的吧! 本期学员:Andy 学历背景:美国本科和研究生 专业:经济学/商科 工作经验:仅实习 曾就职:无 网络上的资讯比理论更有帮助 Andy从去年11月份就开始找工作,期间投递了1500份公司,距找到这家满意的公司用了10个月的时间。对于Andy来说,他认为不要一味地等待别人给你内推机会。他认为海投的基数更大,通常海投岗位放出来,他会第一时间投递。 当然,Andy并不认为内推不是一种好的秋招投递策略,每个人的喜好不同,只不过他认为自己掌握了投递的时间比与学长social更有用,他认为第一时间去执行是更重要的,把机会掌握在自己手里更有获得offer的胜算。“我觉得通常网络上的资讯更有帮助”,课本理论的回报率不是很高,所以Andy试图寻找更高效的求职方法。 篱笆是我DS求职的稻草 Andy在面试的过程中发现,面试本身跟学校学的东西有一些差距。“因为网上几乎搜不到DS相关的课程,所以林峰老师推荐我学习12h统计知识训练就来了。”因为正面临找工作的困难,篱笆教育像是救命稻草一般的存在,所以有上岸的机会Andy就想紧紧抓住。来了篱笆,Andy发现其实面试可能是有一些套路可以去寻找的,篱笆老师会给你系统化分析列出流程,让你能够更好地准备。不用盲目地跑去面试,在系统地知道面试情况下再去面试,这让他的优势可能就比别人大很多。 没有找到工作的人,没有资格减压。 很快,Andy已经毕业4个月了,他的很多同学都找到工作了,这导致他的心态非常不好。但很多同学因为面包放弃了DS的梦想,我会安慰自己说没关系,我还是要坚持自己的理想。坚持下去的动力主要源于热爱,所以要为之付出和努力。 “我压力可太大了,每个礼拜都不太敢接家里电话。”这期间,Andy每天没有娱乐时间。每天除了看书就是刷题,“我觉得没有找到工作的人没有资格减压。”Andy温柔的语气里带着坚定,他认为自己有着一个倔强的性格,不达目的誓不罢休。他无法接受自己找不到DS的工作而白白浪费了10个月的时间,10个月的时间让他不甘心放弃,他心里默默鼓劲说“我一定要找到。”对于还在求职路上的同学,他认为压力一定要有,压力是每个人成长的动力。 你需要对自己有所期待。 反复看面经、去实践面试的流程才是通过面试最有效的方法。Ying导师是Google面试官,同时也是篱笆负责教Andy统计知识的导师。他认为面试前Ying导师帮助准备面经,面试后帮助复盘结果是很有帮助的。Ying导师也会以业界人士的看法跟他说他的实力其实是没问题的,这对于当时的Andy来说是一个很大的一个安慰,他才可以继续坚持到DS入职成功。他认为DS领域求职,对于知识的储备既要深度又要广度。面试期间SQL,mashine learning,phton coding,business case都有涉及,加之每一家公司也都并没有一个标准化的面试流程,要读的东西特别多,所以他觉得就是提早准备提早培训。 闻鸡起舞的每一天,都是为了秋收的喜悦。 经过10个月的备战,Andy同学非常争气,一共拿到两家公司的offer,一家是Plymouth Rock,一家是Capital One。他认为在海外找工作,实习经验非常重要。虽然他之前的实习经验和ds关联不大,但是会比没有实习经验更加分。当然如果学业时间较短,像他这种只有一年的program,那也可以刚入学就参与秋招试试水,因为隔年的3、4月以前基本上比较难拿到满意的工作机会。 图片: https://uploader.shimo.im/f/nDg2BLzBwfjBpTET.png!thumbnail 现在他准备入职Capital One这家公司,他认为薪资是其中一个原因,另一个原因是hr非常在意履历,之前是在哪家公司待着,大公司比较能够吸引hr的注意,所以有一份有个大公司的title写在你的简历上面的话,对于接下来工作会比较有帮助。虽然offer在手,他仍然没有停止奋斗的意思,准备opt签证到期之前抽H-1B签证,这样公司就可以帮他办理绿卡。 图片: https://uploader.shimo.im/f/Rr87OTWAHGo77OeE.png!thumbnail 课余,他也会看一下篱笆教育的自媒体平台,找到一些可参考的案例。平台分析的模拟面试、导师干货小短片等他都非常受用。 这次过5关斩六将,终于拿到500强企业的offer,他总结了几个心得: 1、了解面试题目很重要,相关题目除了在一亩三分地,篱笆教育的官网和自媒体账号上也可以找到。 2、交流很重要,可以跟program的同学一起分享一些资讯,或者一起投递一起准备,会事半功倍,他认为很多HR,会给同一个program的同学发面试,所以如果有program的朋友拿到面试的话你再去投那家公司,你的优势概率会很大很多。 3、跟随导师反复刷题,看面经很重要。 “你需要对自己有所期待。”对于Andy来说,凭借自己的能力在陌生的土地上闯出天地是一种浪漫的感觉,他想要跟全世界最厉害的人一起竞争,他觉得未来还有很长的路要走,但是一切美好都需要自己去实现和坚守 如果想要联系Andy同学的话,可以通过以下联系方式~ (1)邮箱:andywulu914@gmial.com (2)电话:9842456179

晒货图片

发布了晒货 1星期前

SDE/MLE 新手如何在GitHub上找到优质的项目资源?

对于新手而言,想要在GitHub的代码库里面找到最适合自己的项目还是比较困难,无异于大海捞针。下面篱笆老师教你五招帮助你在GitHub上面轻松找到对你有用的项目资源。 第一关注一些GitHub上活跃的大牛或者知名公司账号。当大牛们 create、star、fork了某个项目时,你主页的时间线就会有相关的提示。 第二Explore 。打开GitHub,在上方会有Explore这个选项,GitHub会在这里推一些你可能感兴趣的仓库给你。当你浏览次数和关注的人越多,GitHub推荐就会越智能。 第三Trending。Trending页面类似于潮流榜单,你可以看到近几日一些比较热门的开源项目, 可以用Trending再加关键字(比如某个机器学习方向,或者某个前端framework,或者某个编程需要)就可以更精确地找到你需要的项目资源或者开发者。 第四关注Star和Fork数量。star代表这个项目就比较成熟,有很多人对这个项目感兴趣。Fork越多则代表二次开发的人越多。选择star或者fork数量较多的项目,可以比较有效规避bug的存在,不用花费过多时间去debug。并且可以在某些大牛的star列表里面找优秀开源项目,也可以在 Gitstar Ranking里找到目前star数量最多的项目。 第五search。搜索是我们平时最主要的获取途径。你可以用到来搜索任何你感兴趣的话题。比如你想做一个关于房价预测的机器学习项目,你就可以搜索house price prediction。又比如你想做一个网站的全栈项目来充实你的简历,你也可以搜索相关的关键字,然后看看其他人怎么做的。 下面再分享几个awesome系列关于人工智能还有计算机的好的资源: (1)计算机科学 awesome-courses 收录一些世界知名大学的计算机科学课程 papers-we-love 阅读、讨论、学习更多关于计算机科学学术论文 (2)深度学习 awesome-deep-learning 有关深度学习的教程、项目、社区集合 Secondary Awesome Collection 收集深度学习相关的awesome资源列表 (3)机器学习 awesome-machine-learning-on-source-code 关于机器学习和源代码的研究论文、数据集和软件项目列表 Machine-Learning-Tutorials 包含机器学习和深度学习教程、文章和其他资源列表 无论是GitHub的浏览推荐还是主动搜索,都是寻找适合项目资源的重要方法,GitHub上面的好的资源有很多,所以大家一定不要忽略GitHub这个好的资源,并且根据篱笆老师提供的小技巧会让你事半功倍。 如果对如何在GitHub上找到优质的项目资源还有任何问题,欢迎私信或者评论篱笆老师~

晒货图片

发布了晒货 1星期前

拒绝无效论文阅读!机器学习科学家带你高效阅读ML顶会论文

入门机器学习该如何阅读论文也是同学经常咨询我的一个问题,机器学习是一个非常火热的领域,发展的也非常迅速,新的模型、技术不断地在迭代和更新,这就要求我们在学习甚至是未来工作的过程中,不断的去阅读一些论文,来跟踪某个领域的最新动态。今天我就为大家分享一些我自己实践之后觉得非常有效的阅读方法,只要你想要进入机器学习的领域,都值得收藏一看。 话不多说,我们先来解决最首要的问题,如何找到“值得看”的论文? 人工智能领域每年都会有比较多的会议,机器学习的顶会主要有: 视觉方向:CVPR, ICCV,NLP方向:ACL,EMNLPGeneral的会议: NeurIPS,AAAI, IJCAI, ICML, KDD等等 这些顶会每年的paper就是我们阅读论文的主要来源。此外,如果我们的专业方向都是相对比较固定的,所以我们可以通过检索来找到和自己的专业方向相关的文章来阅读,我比较常用的搜索工具是arXiv、Google scholar和Reddit。每当开顶会的时候,大家也可以稍微去浏览一下被接受的文章的标题,看看有没有自己方向相关的文章可以大致了解下的。 还有就是各大机器学习或者AI相关的公众号,每次开顶会的时候,他们会推送一些文章来介绍各种最新的工作。如果自己没时间去追踪会议的话,那每天稍微阅读阅读各种技术博客或者公众号内容,也很好。 下面就是第二个问题,找到这些论文之后,我们“怎么读”才是有效的,才是不浪费时间的。 首先是文章中经常包含大量的公式、理论和证明的文章。 你要知道的是,即使是业界大牛,也很难快速的阅读和理解冗长复杂的计算公式,所以秘诀就是先粗读一遍文章,跳过代数的部分,默认它们是正确的,主要去理解公式之间的文字描述、实验结果和结论。当你大致的了解文章的主要内容,你可以再决定要不要花费时间来理解代数的部分,也就是开始细读。 接着是一些更加工程的文章,比如很多文章其实只是在介绍某种新的训练的trick,或者某种新的模型结构,或者某种新的loss。这类文章没有太多设计什么数学或推导的部分,他们往往只追求更好的Metric,追求模型效果是否是SOTA。 这类文章在当下已经占据了半壁江山。 我们在阅读这类文章的时候,第一,快速抓住它的核心想法是什么,这个往往看abstract或者introduction部分就差不多知道了; 第二,去看论文里的各种示意图,他们会更好的帮助你理解新的模型结果是什么样的,图往往比文字容易懂;第三,不要盲目相信论文的结果。就算是顶会的论文,很多结果可能只是通过大量调参调出来的好结果,或者特定数据集下的好结果,这种文章结果不一定有普适性。 最后我想说的是,阅读的深度最终还是取决于你的的研究方向和阅读目的,对于一些文章而言,拿出纸和笔,按照论文中的计算步骤一步步完成反而是更有效的方法。 以上就是我分享的所有内容,有任何问题都可以在评论区和我互动讨论,欢迎大家多多留言点赞收藏转发!

晒货图片

发布了晒货 2星期前

科技巨头们依然给实习生发return offer!

上周五,The Information发布了一篇文章:《The Kids Are Alright: Big-Tech Interns Upbeat About Prospects Despite Turbulence》 总结来说这是一个好消息:虽然行业形势不稳,但科技巨头们依然给实习生发return offer。 今年夏天,随着整个行业开始出现一系列裁员和招聘冻结,整个科技行业的实习生们的心都非常紧张。终于,在这个美好的8月等来了好消息连环call!相信小伙伴们终于可以松口气,放松放松啦! 亚马逊和谷歌等都告诉了the Information,他们不打算减少暑期实习生的招聘,并且还将大力招聘实习生。 微软的实习生表示,他们对该公司普遍提供的永久工作机会感到满意。 其实,Meta的实习生招聘计划也不那么惨淡,上月Meta因觉未来局势不明朗,被爆不给实习生发return offer,但就在本月,根据The Information了解到,该公司表现优异的实习生已经收到了return offer。 一位在苹果公司实习的大四学生在8月中旬实习结束前,就收到了苹果长期工作的口头邀请。 实习生是新鲜人才的宝贵来源,而且工资比普通员工低,虽然实习生通常只在一个公司工作三个月,但一些公司将他们的角色视为永久工作职位的延长面试。 近期冻结招聘谷歌又开门招实习生了,不知道人数多少,希望眼疾手快的你抓紧机会! 各大公司已经火力全开,秋招大战已进入白热化阶段!希望每个找工作的小伙伴们都能顺利! 与此同时,为什么有的人却悻悻地结束了实习,与return offer无缘呢? 那么,如何做一个好的实习生? 01、明确个人定位 首先,在刚刚入职的时候,应该主动花一点时间和mentor进行交流,比如约一个小的meeting,或者来一个简单的coffee talk。 明确自己的project在整个项目里的位置,既要知道森林,也要知道树木,更要明白自己负责的是哪片树叶,理解这片树叶对树木和森林的作用。 02、学会问高质量的问题 学会问问题,但请不要将发问当做自己的特权。你可以提问,请花点时间好好准备你的问题。千万不要去问一个简单research就能得到答案的问题。 问题的质量高低,同样可以展现出你的实力。不要去做一个“十万个为什么”,你的mentor是一个资深的工程师,他值得更好的问题,而你也需要得到他真正insightful的指导。 03、正确对待负面评价 很多实习生在遇到负面评价后,就会像被烫着一样,从此郁郁寡欢,抗拒或者逃避交流。但实际上,在职场上,遇到负面意见简直就和吃饭睡觉一样平常,如果大家都在恭维你,那才要警惕出了什么问题。 在遇到批评的时候,很多人都会让情绪支配理智。最典型的一个做法就是将对事情的批评变成对个人的否定。到了最后,一直对mentor心怀芥蒂,反而耽误了自己获得成长的时机。 04、比别人多想一步 每一个实习生都应该用full time的要求来规范自己。学会比别人多想一步。往往能得到strong hire的人,其实都有go extra mile的表现。 这个道理其实很简单,大家都是实习生,完成自己的project是baseline,如果能做的更多,自然就更加分。 但很多人,不要说多做一些事儿,就连和其他组的同事聊天,都表现得不自在,更不用说得到好的评价了。 拿到实习offer是一个非常好的开始,但职场不是学校,没有人必须对你负责。 能否拿到return offer除了自身实力之外,soft skill,empathy,以及必要的社交礼节都是需要掌握的。 毕竟,大家想招的不是一个只会写代码的机器,而是一个可以共事的“战友”呀。

晒货图片

发布了晒货 1月前

篱笆老师循循善诱,帮助转专业的我不断提升技能,丰富简历

K同学:来自美国排名前10的大学,主修数据分析专业,目前是研一在读,未有在科技公司就职的相关经历。在篱笆老师系统化和专业化的帮助下,学习和掌握了更多全面、深入、多维的行业知识,同时在求职面试方面也得到了有力的支持。 Jenny导师:谷歌数据分析师,擅长帮助学生挖掘自我能力并顺利通过求职面试,短时间内快速高效提升面试技巧和语言水平。 Hello,我是一名主修数据分析专业的研一学生。因为最近是在学校实习,所以暂时还没有拿到offer,打算通过今年秋招的机会拿到明年的全职offer。 最初,我是通过浏览小红书了解到“篱笆教育”机构的,当时对小红书上分享的内容很感兴趣,然后找到机构的负责人,并详细咨询了一些问题,一方面我和对接负责人聊得比较合得来,感觉他真的尽力在帮我解答求职等方面的困惑,另一方面我恰好想找的是在职导师,所以最终决定来到了篱笆进行学习。 在授课方面,虽然学校也会涉及和技能相关的领域,但是不会专门往business(商业)方向去做,同时由于我是转data且目前还没有在科技公司实习的经历,整体的经验背景都比较薄弱。篱笆这边的Jenny老师本身是谷歌在职,对公司的那一套流程比较熟悉,所以说老师上课带着我所做的project(项目)以及在此学习过程中进行的cohort analysis(同期群分析)等专业性练习对于没有太多相关经验背景的我来说帮助颇多。在经过数据分析项目课程的学习后,我切身体会到自己在知识消化吸收和运用方面有很大的提升。同时我也提升了自己技术方面的技能,丰富了简历,也实现提升面试和拿到offer的机率。 Jenny老师人很好,备课很用心,讲解也很详细,在简历修改和项目方面为我们考虑得很周到、细致。老师也非常鼓励我们问问题 ,而不是她一个人单方面的输出 ,她常常会从project延伸到她个人的工作方面,在知识拓展应用方面我受益颇多。Jenny老师会向我分享很多她在实际工作中的体会,对于在大厂的数据分析师来说,主要就是三大块的工作, planning, field work,以及reporting。 planning主要是规划好我们需要负责的部分以及沟通需求,我们需要主动host meeting,开brainstorming meeting;field work的部分我们主要积极去分析,随时沟通update 和finding,一般sql和一些basic python analysis 可以搞定,也有需要做modeling的时候;最后是reporting, 主要是画visualization或者做impact analysis 或者quantify scale,为了让business director 了解,所以做一些总结性的分析结果,很多时候用的是tableau或者ppt 。 在篱笆的整个学习过程使我收获满满,篱笆整体服务非常好,不论是Jenny老师,还是上课期间接触到的林峰老师和其他的助教老师们,都是专业知识很强,很有耐心的良师益友。 最后希望在求职面试上遇到困难或者想要更上一层楼的同学,可以通过领英或小红书等平台了解一下“篱笆教育”机构,篱笆的老师都是大厂的面试官,不论是专业知识还是授课能力都双双在线,相信同学们一定都能够受益良多! 如果你想要了解篱笆教育的话,可以直接联系篱笆的教务老师:lixiangzhe28~

晒货图片

发布了晒货 1月前

Expedia 数据分析DA高频面试题分享

1. SQL aggregation funciton Count of blood groups A blood bank maintains two tables- donor, with information about the people who are willing to donate blood and acceptor, with information about the people who are in need of blood. The banks wants to know the number of males and the number of females with a particular blood group. Gender(GENDER), blood group(BG), num of people with that gender and that blood group 2. String functions How many sentences? Given an array of words and an array of sentences, determine which words are anagrams of each other. Calculate how many sentences can be created by replacing any word with one of the anagrams. 3. Football scores the num of goals achieved by two football teams in matches in a league is given in the form of two lists. For each match of team B, compute the total num of matches of team A where team A has scored less than or equal to the number of goals scored by team B in that match. 4. Modify array Given an array of integers, the cost to change an element is the absolute difference btw its initial value and its new value. For example, if the element is initially 10, it can be changed to 7 or 13 for a cost of 3. Determine the minimum cost to sort the array either ascending or descending along its length. 5. SQL aggregation funciton List customer and product without sale in one list return, all customers who do not have an invoice and all products that were not sold. Use the union operator in this query. Return 3 values: category id customer.id(category=”customer”) or product.id(category=’product’) name customer.customer_name or product.product_name 6. SQL aggregation funciton Goals socred by countries given the database of a football tournament, sort the countries by the number of goals scored by that country, descending. The number of goals scored by a country is the sum of the goals scored by its players. If two or more countries have the same number of goals scored, order them ascending by countries.id. 7. ML model basic application 给一个dataset,然后让去predict sales/quantity, etc。 Supervised Learning,从data pre-processing到visualization都要做 8. SQL aggregation funciton Table name: Companies Columns: Year Quarter Company Revenue (1)Use the data in the corresponding table to write a SQL query that will yield the average yearly revenue of each company between 2010 and 2015. (2)Use the same table to write a SQL query to get the average revenue over all companies, for the first 4 quarters. Note: not all companies have the same starting date or start operation at the beginning of the year. (3)Use the same table to write a SQL query that adds a new column to the original table: % of annual revenue accounted for by that quarter, which is defined as company revenue for that quarter-year divided by total company revenue for that year. 以及是否要relocate,desired salary 9. Job application metric Job application metric下降了,怎么调查原因。 10. Simpson paradox Simpson paradox的一个问题,两种email version,连续两周在两个不同的城市做实验,显示结果是B好于A。combine起来是A好

晒货图片

发布了晒货 1月前

web 3.0 指的是什么?未来将有怎样的发展?

再聊什么是Web 3.0之前,不得不说说什么是Web1.0 和 2.0。 Web 1.0,也就是第一代互联网,是静态互联网,主要的应用是网络媒体。各网媒雇佣一大批编辑,将图文并茂的内容发布成为网页。读者访问网站,浏览数字内容,但只能读不能写,无法参与内容的创造。整个 Web 1.0 媒体相当于传统报刊杂志的电子化。 Web 2.0,也就是第二代互联网,是交互式互联网,主要的应用是社交网络和电商。在这个阶段,平台只是提供一个基础设施,自己创造的内容很少,绝大多数内容是用户创造的。但是平台却静悄悄的扩张了自己的权利,凭借着自己对技术基础设施的控制权,兵不血刃地把用户数据的所有权也拿到了手上。在 Web 2.0 平台上,用户创造的数字内容,所有权属于平台,控制权也属于平台,平台可以决定编辑、修改、删除和屏蔽用户的内容,甚至可以删掉用户的账号,将用户驱逐出其社交网络。此外,这些数字内容所创造的价值如何分配,由平台说了算。用户在使用互联网过程中产生的大量数据足迹,其价值也由平台无偿占有。 Web 3.0目前并没有一个准确的定义,也就是没人知道Web3.0究竟是什么,会变成什么样,这其实也是它受人关注的一个原因,因为在这种模糊的状态下,他可能有很高的上限,也就是高风险,高回报。虽然他没有明确的定义,但是他有着一些带来变革的潜力,我们现在就聊聊他能给互联网带来什么样的改变。 Web 3.0 中,用户所创造的数字内容,所有权明确为用户所有,由用户控制,其所创造的价值,根据用户与他人签订的协议进行分配。在这种体系之下,这些数字内容就不再是简单的数据了,而是数字资产,因为它的权利得到了资产级别的保障。 区块链是Web 3.0 的技术基础。 区块链实际上是一个去中心化计算协议,约定了不同的利益主体如何分散的创建和维护一个分布式的计算基础设施,从而单一平台通过计算基础设施管理权力,实现对用户数据、用户资产和用户身份的控制。 因此区块链是 Web 3.0 必不可少的基础设施。但区块链只是手段,目的是实现用户数字资产权益的确认和保护。 一句话总结,web 3.0是想要运用区块链和去中心化的技术去构建一个更民主的网络。 那么,元宇宙与Web 3.0究竟有何关系呢?Web3.0是技术发展方向的未来,元宇宙是应用场景和生活方式的未来,二者之间是相辅相成的依存关系。具体来说,在元宇宙中,AR/VR解决元宇宙前端的技术需要,而Web3.0在后端提供强有力的技术支撑。

晒货图片

发布了晒货 1月前

篱笆教育 | 转行简历没内容不用慌,篱笆老师手把手带做项目

G同学:我是一名在职人士,之前学习的是会计专业,现想转至数据分析、商业分析方向。在没有太多相关背景的情况下,期望感觉篱笆老师能够帮助专业化、系统化梳理知识,给予我在转行和求职等方面的支持。 Jenny导师:加州大学圣地亚哥分校硕士,谷歌数据分析师,擅长帮助学生挖掘自我能力并顺利通过工作面试,短时间内快速高效提升面试技巧和语言水平。 我之前在美国机缘巧合加了篱笆创始人的微信,在有了转行的想法后便向他询问了大概情况,感觉篱笆的老师和服务整体上都很不错,而且老师都是大厂的面试官,所以最后选择了“篱笆”以学习更多的专业知识。我没有相关的专业背景、实习工作经验,而项目经验对转行来说至关重要。篱笆的Jenny老师手把手带我做几个Project,我也因此积累了很多实战经验,老师的教学内容对我入门来说是很不错的,帮助我快速提升期望岗位所需技能。 在上课过程中,老师主要针对商业分析、数据分析等方向,带着我们完成业界典型的大数据项目,让我能够了解到最前沿的大数据变革潮流,并熟练掌握大数据分析所需要的技巧方法和思维方式,极大地提升了自己的申请和求职背景。此外,每次上课都会有提问环节,Jenny老师会聚焦于我们遇到的问题负责、耐心地解答,总结归纳一些我可能忽略的细节、难点,帮助我更好地去消化吸收知识点,让我在丰富自身经历的同时,也实实在在地提升了职业技能。 比如我曾经咨询过老师技术面的情况,因为在会计行业其实是没有技术面一说的,我对于求职数据方向要如何准备技术面试知之甚少,Jenny老师就详细的为我梳理了技术面试的要点,主要就是四类内容: 首先是Online Assessment,HR会给你一个链接,或者他们内部的一些软件,对于一个记时的形式让你完成,比如说一两道SQL,一个python让你定义一个作用或者通过SQL去完成一些矩阵构造等等。 其次是Take Home Challenge,一般HR会给你发一页纸到两页纸之间一个实例或者方案让你通过做一些分析或者建立机器学习模型帮助这个实例解决某个问题。经常情况下当你做完会让你做一个展示。 在然后是Technical Phone Interview ,通常情况下他会有一个30-45分钟时间,会考你比如machine learning algorithm,statistics probability等等。还会问你一些这方面的经历与经验。让你回答一些比如在方案设想里面你会用哪些分析的方法去解决这些问题。 最后是Whiteboard,不仅考察你写代码的能力,也考察你的心理素质,一般情况下,面试官会给你一个Google doc或者一个白板,让你在上面自己打一些代码,他会考察一些你的逻辑思维以及你是否有一个清晰的框架,是否有一些想法等等,这种情况下你可以问一些跟进式问题来帮助你更加理解它的问题和争取更多思考的时间。  这些内容对我的帮助就特别大。 另外因为我们上课的三个学员基础不太一样,有一个学员本身就是数据分析专业在读的master, 她的提问往往是我在做project的过程中没有注意到的点,这让我也更深入地接触、了解到了数据分析专业相关的知识。令我印象深刻的是,Jenny老师非常有亲和力和耐心,课上,哪怕我的问题非常的基础甚至是基础概念,她都会非常耐心地解答,课下她也一直在鼓励我,让我的学习动力不断提高。我非常感谢Jenny老师的辛勤付出和帮助! 总的来说,篱笆还是提供了性价比较高的课程服务项目,不断来丰富我的经历,增加申请的竞争力,在求职技巧和简历修改等方面帮助还是颇多的,让我在以后的求职过程中也更加有信心拿到心仪的Offer!如果你对留学、求职和创业感兴趣的话,推荐来到篱笆哦。 

晒货图片

发布了晒货 2月前

机器学习求职分享 | 推荐系统中如何利用「不喜欢」这样的信号

大家应该能发现,越来越多的推荐系统,特别是基于feed或者说基于流的推荐系统,比如短视频,比如淘宝的推荐主页,比如微博主页等等,新增了不喜欢或者不感兴趣这个按钮。 那么作为一名算法工程师,你应该如何使用这样的信号来帮助你的产品呢? 面对这样一个问题,或者面试题,其实是没有什么标准答案或者最好答案的,使用这个信号的方法是多种多样的。 可能首先大部分人能想到的是,不喜欢是一个很强的信号,它比类似“没有点赞”,“没有点击进入”,“停留不超过5秒”这样的负面信号还要负面,是一个high confident(高置信水平)的负面信号。 面对这样的信号,大家可能第一反应就是做一些rule(规则),比如“当当前内容与不喜欢过的内容或者产品相似,则降低其推荐权重。” 这个想法很直观,但是如何判断两个内容或者产品频是否“相似”,则引申出了另一个一个很大的机器学习问题。 那么我们可以把这些数据当做来训练用的label(标签)吗?这个当然也是可以的。但是这里就又引申出来了其他问题,比如我们是应该训练一个【预测用户是否喜欢一个item】的模型,然后把这些label当做额外的负面的label加到训练数据集使用,还是应该用这些label来训练一个【预测用户是否不喜欢一个item】的模型。 如果是第一种的话,如何给这些high confident的负面label更大的训练权重。是否可以作为multi-task learning的一个task来学习? 如果作为label,它是否会过于稀疏了?等等等等。 我们还可以把不喜欢的信号,当做feature(特征)加到我们一些预测模型中。 除了以上讨论的,还有其他问题,比如用户现在不喜欢这个东西,那是否代表他永远不喜欢,如何考虑用户不喜欢程度随时间的变化? 以上就是很经典的一个ML Design的思考过程,作为ML从业人员,大家需要加强这种思维能力。这个不仅对于面试,对于工作来说也极其重要。

晒货图片

发布了晒货 2月前

篱笆教育 |篱笆老师因材施教,帮助我跳槽拿到亚麻等Offer

Gloria同学:数理统计专业(Mathematical statistics master),有一定的职场经验,但在八年的工作期间内,未在科技公司就职且周围从事相关方向的朋友较少,欠缺有效的指导和可利用的资源。通过篱笆老师系统化和专业化的指导,顺利拿下Amazon等多家公司的offer。 Kyle导师:Google Product Analyst,曾在Amazon,Sony,startup任职Data Scientist。2年+面试官的经验,教学经验丰富,擅长生动灵活的教学方式,帮助学员全面掌握知识点。 我从一位好友的朋友圈分享安利中,得知篱笆教育。而由于身边人对于科技公司不是很了解,苦于没有可直接利用的资源,急需要行业人专业性的方向把控,再加上马上有亚马逊面试,故决定报名篱笆教育课程。 Kyle老师也非常棒,上课自带relaxing style,风趣幽默,比较mind opening。平时授课除了会将知识点细致化的讲解以外,帮助我吃透知识点,还会针对我个人具体的求职情况,例如会在mock interview 和 leadership principal 等提供相对应的练习,匹配度很高。总的来说,两位导师都帮助我大幅度地提升了product sense部分。 但对于自身而言,我是有一定的工作经验,所以我认为最大的帮助并不是老师所讲的知识本身,而是篱笆老师起到了提纲挈领的作用,抓住了问题的关键,帮助我清楚了自己的短板,并找到了后续面试的准备方向。同时,也提升了自信心,从一开始期望于二十万薪资的工作到最终可以拿到二十五万薪资的工作。总体而言,这比自己找资料积累知识点更加高效更加内行,也让我走出了“事倍功半”的困境中。所以,也推荐各位有相关需求的小伙伴报名篱笆课程哦~快速地提升自己面试的能力。 此外给我留下最深刻印象的是:Kyle导师之前曾在Amazon任职,对我面试Amazon给予莫大的鼓励,也为我后续面试相关方向更大平台的公司提供一针“强心剂”。总体而言,篱笆老师全程高能,成功帮助我拿到各大公司offer,欢迎各位小伙伴前往了解并参与报名呀~ 也欢迎大家通过微信联系我:Purelida_MJ。

晒货图片

发布了晒货 2月前

篱笆教育 | 篱笆老师经验丰富、CS面试真题押题命中率高

Z同学:后期转专业学员,本科就读于四川大学高分子专业,研究生就读于美国东北大学计算机专业。在篱笆老师的帮助下,目前已拿到TransUnion的offer。 Kevin老师:谷歌软件工程师、面试官,加州大学伯克利分校计算机本科,熟悉美国计算机方向面试,教学经验丰富,高效帮助学生掌握算法理论,夯实编程技能提升面试能力。 Dong老师:Facebook软件开发工程师、亚马逊前端开发工程师、NBCU软件开发工程师,纽约大学研究生,为人亲和,善于帮助学员梳理、总结知识体系,押题命中率高。 我在领英平台上了解到“篱笆教育”机构,并且我的一位学姐也报名了篱笆课程。在向她询问了大概情况后,我感觉篱笆的老师和服务整体上都很不错,课程价格也非常合理、实惠,而且老师都是大厂的面试官。课程内容也非常灵活,导师会聚焦于学员遇到的难点和痛点耐心、负责地解答。 比如:在收到Meta和Amazon前端实习的面试邀请后,我非常茫然,一时之间不知道该从何处准备。Dong老师针对这两个面试给了我很多指导,讲解非常到位,押题命中率非常高。Kevin老师在Mock方面,积极根据个人实际表现情况提出了可行性的意见和建议;在BQ问题上,也在耐心教我如何结合自身的真实经历展现出自己的业务能力。 两位老师都非常专业,性格和善。Dong老师很爱笑,能看出来她是一个开朗热情的人,最让我印象深刻的还是老师押题命中率特别高,对我在面试准备上帮助很大。Kevin老师让我意识到做题的重要性,更愿意去做题。两位导师的教学都会更贴切学员自身的情况,能更具针对性、有效性地回答我想要知道的问题。在面试准备过程中,我便少走了很多弯路,并没有一味地陷入题海战术的漩涡中,而会及时总结、梳理思路,意识到每一轮面试的主要考察点,进一步了解自身的不足以及时有效地补齐短板。 如果在求职上遇到困难或者想进一步提升的同学,可以了解一下“篱笆教育”哦。感兴趣的同学可以先去试听一下篱笆免费的分享会,老师都非常专业、负责、有耐心,干货满满,相信同学们一定会有所收获的!如果有想要了解“篱笆”的同学,欢迎通过邮箱联系我,我的邮箱是:riversanjose000@gmail.com。

晒货图片

发布了晒货 2月前

Amazon人工智能AI高频面试题分享| SVM、Batch

1. Transformer相关问题 什么是attention network, transformer 2. Transformer相关问题 什么是BERT 3. Gradient Descent 什么是stochastic gradient descent. 和gradient descent有什么区别 4. Bias/Variance 什么是bias and variance 5. SVM 什么是SVM? What does Support Vector stand for? 什么是kernal trick? 6. Regularization 有哪些regularization方法(L1,L2,dropout) 什么是dropout? 为什么可以regularize? 7. Gradient Descent 什么是stochastic gradient descent. learning rate应该怎么决定? 当batch size增加时,learning rate应该增加还是减小? 8. Batch Norm 什么是batch norm。有什么用 9. Dropout 什么是dropout。dropout的过程中activation的input会比没有dropout要小,因为一些上一层的neuron没有contrbute,这个时候怎么办。Testing的时候要不要dropout。 10. ML基础知识 什么是supervised 和unsupervised learning

晒货图片

发布了晒货 2月前

篱笆老师分享 | 有没有必要把机器学习算法自己实现一遍?

对于机器学习入门者来说,一边学习各个模型一边尝试用Matlab或者Numpy复现是很有帮助的。 刚入门机器学习的时候大家很多时候都会产生这样一个疑问,市面上各个各样的机器学习库这么成熟,训练一个模型只需要用调一个sklearn,跑一下model.fit()就好,为什么老师或者很多已经在这个行业的人还是会建议你自己动手再实现一遍。 我想这里主要有几个原因。 首先,完整实现一个模型才能真的保证自己对于这个模型是有完整的理解的。每个自己复现过模型的人都不得不承认它对于提升自己的模型理解的帮助。 随着你学习的时间越来越长,在这个方向经验越来越多,你就可以从复现一些常见简单的模型,开始向复现一些主流的常见的深度模型过渡。能实现论文里的模型,是一个ML从业者的基本要求。 其次就是,有些面试,会让你当场手写一个模型。最常见的就是KNN和K-means的实现。如果你从来没有实现过的话,遇到这些面试可能很难当场给出个很好的解答。 在北美这种面试题目一般会在data coding或者ml coding轮次出现。所以复现模型对于求职面试也是很有帮助的,如果遇到了这类面试,大家记得在面试前复习下常见模型的实现。

晒货图片

发布了晒货 2月前

Amazon面试高频BQ问题面经分享 | 做出决定、判断错误

1. Make the right decisions Use sound business judgment to make the right decisions quickly and achieve results,even in the absence of complete data? 2. Question decisions Question whether decisions are being made in the Company's and customer's best interest and change course when they are not? 3. Recognize that great ideas come from others Actively seek out the best solutions,recognizing that great ideas often come from others? 4. Recognize that your idea may not be good Recognize that your idea may not be as good as someone else's and get on board with the best idea? 5. Make decisions Tell me about a decision for which data and analysis weren't sufficient to provide the right course and you had to rely on your judgment and instincts. Give me two to three examples.They don't have to be big strategic decisions-could be big or small. 6. Right solutions Tell me about a time you made a difficult decision and how you knew it was the right solution(probe on how they evaluated the options,if they received input,what data they reviewed,etc.) 7. Make decisions in the absence of good data Give me an example of when you have to make an important decision in the absence of good data because there just wasn't any.What was the situation and how did you arrive at your decision?Did the decision turn out to be the correct one?Why or why not? 8. Make a bad decision Tell me about a time when you made a bad decision and the learning from the experience enabled you to make a good decision later.What did you learn that you were able to apply? 9. A number of possible solutions Tell me about a time when you have been faced with a challenge where the best way forward or strategy to adopt was not "clear cut"(i.e.there were a number of possible solutions).How did you decide the best way forward? 10. An error in judgment Tell me about an error in judgment you made in the last year or two,what it was and the impact of it.

晒货图片

发布了晒货 3月前

篱笆教育 | 谷歌导师谈毕业第一份工作是去大厂还是初创公司?

我的个人观点是:毕业生第一份工作建议去大厂,有足够的工作经验,找到合适的startup后跳槽。 一、去大科技公司的好处: 1. 公司管理模式成熟。很多其他小公司在摸索的技术问题/管理问题,大公司都解决了。很多问题如果不是公司发展到一定程度是不会遇到的,一旦遇到是很难解决,这是就需要有经验的人还帮助这些在发展中的公司解决这些问题。 2. 学习机会多。大公司有问题多免费的学习的资源,培训也很有体系,很全面。课外学习还能报销学费。 3. 未来选择更宽:工作几年之后去读MBA,或者继续大公司,或者去创业。 4. 人脉:大公司的工程师平均技术水平和沟通能力都很高。也有一些人有创业野心。大公司每年很多人跳去startup,你以后找startup的时候很可能可以用上这些资源。 5. 视野:大公司站的很高看的很远,对刚毕业的学生建立全球视野很有帮助。 6. 前沿技术:In general大科技公司里的技术一定是领先的,但不同组之间的差异也很大,如果努力进入核心组,可以学习到很多最前沿的技术。 7. 绿卡:大科技公司办绿卡容易,解决身份问题上对策多。 8. 收入:大科技公司的package绝对是准第一梯队的。攒下第一桶金在职业生涯早期非常有用。 9. 换组容易:换组不需要重新刷题,也就是说你可以更容易的积累更多经验。 二、去Startup的原因 1.成长。大公司到一定级别会有很难的坎,而且很多时候只是机会的问题。在大公司难升上去主要是因为竞争的人太多。要想继续成长,可以绕道一下Startup。 2.成就感。作为公司的主力,把一个小的startup做成Unicorn的成就感。在大公司也有类似的机会,但是少很多。 3. 财务前景:如果公司成功,财务上的回报远远大于大公司。 三、去Startup的时机 1. 个人或者公司整体发展受限的时候 2. 经济上允许的时候,从大科技公司跳去早期Startup,要做好年收入可能减半的准备。

晒货图片

发布了晒货 3月前

篱笆教育 | 即使入场晚,在篱笆老师的帮助下我也顺利拿到实习

L同学(本文作者):康奈尔大学计算机科学专业、曾在多个方向(DS、BA、MLE)进行实习,今年找实习入场比较晚,想通过课程在短时间内为求职MLE方向做好准备 Lan导师:微软应用科学家,宾夕法尼亚法学数据科学硕士,美国数据建模大赛特等奖,具有扎实的数学、计算机、机器学习背景 我就读于康奈尔大学计算机科学专业,之前在不少公司都有实习过,比如:微软、谷歌、华为、字节等地方,但所从事的岗位还不太一样,这也极大地丰富了本人的经验。第一次实习是在微软,但当时我还是物理专业,后来因后期规划和兴趣而选择转成DS专业。而后,我在谷歌做BA方面的PTA,在暑假又去到华为做了MLE、自然语言处理相关的工作,主攻语音助手小艺产品。之后,我在字节做的是一个是跟AI相关的SaaS项目。 最近的情况就是我收到了momentive.ai公司的offer。在求职过程中被问到的问题基本上都是老师教的,“篱笆”真的对我有很大帮助! 我是在领英上最先知道篱笆的,然后又去旁听了几场篱笆的分享会,感觉收获很多,就报名了“篱笆”课程。其次因为我今年找实习入场比较晚,所以想通过篱笆让自身短时间内准备得更好。 一开始我上了Lan老师的课,Lan老师作为微软机器学习应用科学家,所教授的内容也跟我想做的方向相一致的。在上课过程中,Lan老师基本上把主要的、重要的知识内容做了梳理,帮我搭建了一个较完整的框架、体系,如此一来我差不多知道有什么方向自己需要再深挖,也让我在后面的求职准备中也更加从容。 令人印象深刻的是Lan老师多次课程超时,讲了2小时40多分钟。老师非常敬业,哪怕超出了说好的时间,他也会很负责地把我提出的问题或者所教授的内容具体地、深入地、细致地讲清楚。除此之外,在结课之后,老师和我也一直保持着联系,当他看见比较适合我的岗位也会私信和我讲,让我去尝试投简历,包括momentive.ai公司的offer,也是Lan老师把这个岗位告诉我的。 之后我又报了Kevin老师算法课的原因是MLE方向的岗位对Coding的要求也是较高的。Kevin导师是谷歌的软件工程师,在算法方面的能力非常强,我想了解具体Coding面试中到底有哪些难点,便于自身发现不足之处后更加有针对性准备。对于我来说,就是花钱买时间,帮助自己在短时间内准备地更充分。 我觉得两个老师都非常好,Lan老师非常热情,我们也很像朋友一样相处,非常希望我能够拿到心仪的offer。Kevin老师很专业,有耐心 ,对我在算法方面的帮助非常大。我感觉“篱笆教育”和其他机构最大的不同便是老师不仅仅是在教授内容,而是像“学长“一样来帮助作为学员的我们。如果在求职等方面有需求的同学们欢迎报名“篱笆教育”哦! 如果有和我经历相似,想再和我沟通一下的同学,可以通过我的邮箱: yl992@cornell.edu 或者微信:Alpha_Bill 联系我。

晒货图片

发布了晒货 3月前

Google最新CS面经分享 | 各类编程问题,转换,匹配

下面是篱笆老师为大家整理的最新谷歌面试真题,希望对SDE求职准备秋招的同学们有帮助! 11. 发射信号 给一个Router List, 包含所有router的坐标x,y. 设定Router 的最大无线传播距离为k. 求Router A是否能够把信号传播到Router B 12. leetcode 315 给你一个整数数组 nums ,按要求返回一个新数组 counts 。数组 counts 有该性质: counts[i] 的值是 nums[i] 右侧小于 nums[i] 的元素的数量。 示例 1: 输入:nums = [5,2,6,1] 输出:[2,1,1,0] 解释: 5 的右侧有 2 个更小的元素 (2 和 1) 2 的右侧仅有 1 个更小的元素 (1) 6 的右侧有 1 个更小的元素 (1) 1 的右侧有 0 个更小的元素 示例 2: 输入:nums = [-1] 输出:[0] 示例 3: 输入:nums = [-1,-1] 输出:[0,0] 提示: 1 <= nums.length <=105-104 <=104<=104 13.在杆上放环 您有 10 根杆,编号从 0 到 9。有三种类型的环 - 红色,绿色和蓝色 - 被放在杆上。每个杆上都有一个每种颜色的环,你得到一个点,也就是说,要得到一个点,你需要在一根杆上有一个红色环,绿环和蓝色环。 戴在杆上的戒指由两个字符表示 - 第一个字符描述戒指的颜色,第二个字符描述它从0到9在哪个数字杆上。例如,“R8”表示在第8根杆上放置了一个红色环。 编写函数: 类解决方案 { 公共 int 解决方案(字符串 S); } 给定一个正确的长度为2N的字符串,描述放在杆上的N个环,返回您将获得的点数。 示例: 对于“”B2R5G2R2“,”“”,答案是1 给定的S =“R8R0B5G1B8G8”,你的答案应该是1。放在第8根杆上的环有一分(上面有一个红色,一个蓝色和一个绿色环)。第0根杆上还有一个红色环,第1根杆上有绿色,第5根杆上有蓝色。你不会为他们得分,因为他们没有在一根杆上形成一个完整的三人组。任何其他杆上都没有环。 14. 连接字符串以获得回文 如果字符串的向后读取与向前读取相同,则它是回文。例如,“madam”和“racecar”是回文,但“milk”不是。 我们得到了一个N个字符串数组,其中每个字符串由两个小写的英文字母组成。我们希望将尽可能多的字符串连接在一起,以获得回文。 编写函数: 类解决方案 { 公共 int 解决方案(String[] A); } 其中,给定一个长度为N的数组A包含两个字母字符串,返回可以通过从A将尽可能多的字符串连接在一起来创建的最长回文的长度. 示例: 给定A = [“ck”,“kc”,“ho”,“kc”],该函数应返回4,因为可以从A创建的最长回文是“ckkc”和“kcck”, 并且它们的长度都等于 4。 给定 A = [“ab”, “hu”, “ba”, “nn”],该函数应返回 6,因为可以从 A 创建的最长回文是 “abnnba” 和 “bannab”,并且它们的长度都等于 6。 给定 A = [“so”, “oo”, “kk”, “od”],该函数应返回 2,因为可以从 A 创建的唯一回文是 “oo” 和 “kk”,并且它们的长度都等于 2。 给定 A = [“do”, “go”, “ok”],该函数应返回 0,因为无法从 A 创建回文。 为以下假设编写有效的算法: N 是 [1, 100,000] 范围内的整数。 A 中的每个字符串由两个英文小写字母组成。 15. 路由器之间的大写消息 让我们定义一种名为“广播和关闭”的消息。当路由器收到此消息时,它会将相同的 消息广播到其无线范围内的所有其他路由器。然后,该路由器将关闭,并且无法再发送或 接收消息。 例如,路由器 A 位于 (0, 0);路由器 B 位于 (0, 8);路由器 C 位于 (0, 17);路由器 D 位于 (11, 0)。 如果 无线范围为10,当路由器A发送消息时,它可以首先到达B;来自路由器 B 的消息将进一步到达 路由器 C。但路由器 D 永远不会收到此消息。 A 0 0 B 0 8 C 0 17 D 11 0 问:给定路由器位置列表(它们的名称和相应的2D坐标),告诉我来自 路由器A的消息是否可以到达路由器B。用适当的输入和输出参数编写方法/函数。 16. 将矩阵转换为所有零 给一个matrix,只包括0和1,可以不断的翻转行或者列,请问是否能让这个matrix全是0?翻转某行或者某列的意思是,此行或者此列的1会变成0,0会变成1. 初始状态: 0 0 1 0 0 --> 1 1 0 1 1 0 0 0 1 0 0 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

晒货图片

发布了晒货 3月前

想前往硅谷工作,但不知道怎么做?试试这三条路线!

1. 留学路线; 2. 跨国公司relocate路线; 3. 直接申请海外职位路线。 成功几率:1>2>3 (1)留学路线 这条路是在找工作方面风险最小但是投入成本最大的。 如果你准备走这条路的话,不管你是在读书还是工作,建议今早开始准备出国:如果去读本科的话,需要准备托福,SAT,好的学校还会看AP也就是大学先修课程,研究生需要准备托福,GRE,不论本科还是研究生,能找到一个好的中介都是会对你有很大帮助的。现在美国留学也是越来越卷,不少同学在研究生开学之前leetcode就已经刷了好几百题了,一开学就找实习,找工作,如果不提前准备的话很可能跟别的同学比有很大差距。 但是这条路,通过读书(F1签证)去美国工作,相对是成功率最高的。同时也是在海外工作的大部分人所走过的路,也就是说 well justified 的可行之路。缺点就是 对于现在在工作的人来说成本太高:要辞退工作,要准备英语,要花海外大学的学费,另外还要投入2年左右的时间,还真是一笔相当大的开支。可能适合推荐在校学生或者工作2-5年的人使用(外加自己英语底子还不错的)。 (2)跨国公司relocate路线 这条路觉得对于已经工作的人是比较稳妥的。具体执行办法就是去一个外企或者海外有办公室的公司好好工作,然后在工作2-3年后,申请(一般这些公司也有这些机会和名额)transfer到美国。涉及的公司主要是传统外企:Google,Microsoft,Yahoo。我周围有的同事就是几年前通过这种方式来工作的,现在疫情期间可能比较困难,希望之后会好一些。 (3)直接申请海外职位路线 这条路是最困难的一种方式,近些年来我很少知道有人是通过这种方式来工作的。以前有的话,应该也是顶尖人才。

晒货图片

发布了晒货 3月前

篱笆教育|BA专业求职DS,篱笆老师帮我克服专业不对口的劣势

Adam同学(本文作者):杜克大学商业分析专业,期望求职数据科学或人工智能相关岗位,由于专业不太对口,在求职的时候缺乏优势,篱笆老师通过完善全面的课程体系,帮助学员全方位提升求职能力。 Dana导师:谷歌数据科学家(美国),斯坦福大学硕士&牛津大学经济学本科,曾收获谷歌、FB、Bytedance、Roblox等DS offer, 全方面掌握Tech大厂DS面试的知识点,帮助学生整理独特又精准的答题思路 我现在在杜克大学读商业分析,我的专业申请BI这种职位比较对口,但我在学校接触到一些AI(人工智能)和Machine Learning (机器学习)的课之后,发现自己其实对 Data Science (数据科学)和 Machine Learning engineering (人工智能工程)这种更偏技术的工作更感兴趣。可是我的背景让我在申请这些职位上缺乏优势,可能海投了一百多份简历只有一两个回应,我也不知道简历的问题出在哪,不知道在专业不对口的情况下应该怎么写简历突出自己。恰好当时有篱笆的人通过领英来联系我,然后我就想说那就来试试看,所以我就报名了篱笆的课程。 有三位导师一起负责我的授课内容,一开始Dana老师算是我主要的老师,先帮助我规划了我就职的 road map(路线图),中间找出了我需要增强的地方,然后Jenny老师和川川老师来负责我的专项提升。Dana 导师主要负责教我一些 product sense (产品思维)和 A/B testing(A/B 测试)的内容,川川老师就专门负责我的Machine Learning 和NLP,我感觉川川老师在这方面还蛮厉害的,Jenny老师就是专门在SQL上给我总结一下答题思路和常见的考题答题技巧。 课程完成之后我也一直在面试相关的岗位,最近在面的一个MLE岗位已经过了第一轮technical interview(技术面试), 下一轮要测 probability(概率) 和 programming(编程), 我也在群里咨询Dana老师应该重点准备什么内容,Dana老师也会回复我一些建议和她能够提供的资源。 总体上来说,我觉得上课的内容很不错,Dana 老师有做给我一个product sense 的 Google doc,那个我还留着,准备面试的时候也会看一下,内容特别完整,资讯有很多。另外我比较经常去查的就是川川老师的ML的东西,有一些观点是我以前没有想过或者学校以前没有这样提过的,这些东西对我ML的知识的扩展是有帮助的,时也是一些面试的考点,所以对面试来说也是很有帮助的。 通过篱笆教育的辅导,我不仅提高了自己面试的能力,还增长了很多相关的知识,因为我个人也比较喜欢学习新的东西,所以整个过程还是比较开心的,也非常推荐感兴趣的同学可以了解一下篱笆教育。 也欢迎感兴趣的同学邮件和我联系:andywulu914@gmail.com。

晒货图片

发布了晒货 3月前

Google最新CS面经分享 | 查找字符串、建造塔楼、交易

1. N 排序数组中的最小范围 input 给n个integer sorted array,如果从每个array取一个element那么这n个数最小的range是什么. 2. 找到最低成本 经典dijkstra题 给一些地点和两地之前飞机票的价钱 问两点最小cost怎么走. 3. leetcode 1273 4. 查找带前缀的字符串 给一个string array 和一个string pre,找array里所有有pre作为prefix的string. 5. 设计文件系统 要求实现一个function计算目录/file的size,添加一个file entity以及给你一个entity,判断是否合法(判断sub directory or file是否存在环. 6. 建造塔楼 给两个int m,n 代表matrix长和宽,再给两个API buildTower(), stop().call 一次buildTower()会返回matrix上点的坐标, 表示在这个点上建塔,stop()就是停止建塔.matrix左右两侧各有一个city, 分别与matrix第一列/最后一列相连.问要call几次能使得两个city通过tower联通. 7. 右上角的指针数量 给一堆点,每个点x,y坐标都是整数且都不重复,求每个点的在他右上的点的数量。用segment tree或者treeset做 8. 切块的可能性 n个k面色子 输出每种和的概率数组 比如2个2面色子 输出 [0.25, 0.5, 0.25] 9. 生成相似的字符串 生成类似字符串 Input是一组字符串,例如[“word”, “orange”, “of”] similar string的定义:如果一个字符串w是字符串组数组的类似字符串,那么:1.w的第一个字符必须和array中某一个字符串第一个字符相同;2.w的最后一个字符必须和array中某一个string最后一个字符相同;3.w的中间字符相对于前一个字符的分布,必须和array中每一个字符相对于前一个字符的分布相同。最后一个条件有点费解,拿这个input举例,如果w[i]是'o',那么w[i+1]只能是'r'或者'f',而且是'r'的概率是'f'概率的两倍 10. 处理交易 处理transaction 已知有一个函数processTX([tx1, tx2, ...txn])可以处理事务 [tx1, tx2, ...txn],如果transaction中所有entries都是good entries,那么processTX返回true;否则返回false。processTX是一个黑盒。 要求写handleTX([tx1, tx2, ...txn])来处理任意transaction,要求为: 1.调用完后,所有good entries都被processTX调用过一次 2.调用processTX的次数足够少

晒货图片

发布了晒货 3月前

Amazon 最新数据分析面经| SQL、概念解释、产品思维

11.SQL窗口功能 根据 Q2,找到最高成本订单。 12.SQL 选择部门,活跃/非活跃员工 用到案例何时,然后计数? 13.SQL嵌套查询 选择高于平均部门工资的员工。 子查询先获得部门平均工资,然后获得工资>子查询 14.SQL窗口功能 选择每个部门 中前 3 名员工的薪水row_number() over (按部门顺序按工资部门划分) 作为 rnk,然后在外部查询 rnk=3 15. 概念解释 衡量逻辑回归性能的关键指标是什么? 在逻辑回归中,我们通常使用0.5作为阈值,在什么情况下要更改该阈值? 聚类与分类之间的区别 融合的两种常用方法是什么?有什么区别? 解释偏差方差权衡 解释选择偏差 选择偏差是由分析中样本的选择引入的,不代表您要分析的一般总体。例如,仅选择covid数据来预测美国的纸巾需求。 解释差异中的差异 什么是统计功效? 假设在实验中,统计功效真的很低,我们无法改变样本大小,你会怎么做? 如何提高低功耗和大量噪声实验的准确性? 16. 产品题 一个产品的实际收入比预测收入低40%, 问如何找原因

晒货图片

发布了晒货 3月前

人工智能求职 | 面试官如何判断求职者的机器学习水平?

首先,有些公司可能会给一些大致的指导性原则,面试官应该从哪些大方向上进行考核。比如Amazon会强调面试官应该去考察面试者在ML上的深度和广度。 而更多的公司其实没有明确的机器学习的面试要求,更多的是面试官自己“发挥”。 在我这些年参与的面试里,我能体会到,不同ML面试官的面试题风格多种多样,但也有一定共性,比如有些问题大家都爱反复去问。 比如逻辑回归对吧,它的loss是什么,是用什么优化算法来minimize loss的,minimize这个loss和最大似然估计有什么关系。过拟合要怎么办,L1和L2的区别。这些问题大家会在无数面经里看到。 为什么面试官喜欢问这些问题呢。首先大部分面试官也不想刁难面试者,没有必要去问些很偏门的模型或者知识。其次面试官想知道面试者是真的有机器学习理论基础的而不是只是会调包。而这些高频题,它们首先很基础很重要,是每个做机器学习的人都应该知道,其次面试官还是比较容易通过面试者的回答,摸清他们对于机器学习的理论到底掌握到什么个程度。所以面试官经常喜欢问他们。 说到这里给大家一个我常给篱笆的学生的一个建议,主动去收集高频题是很重要的一件事,题海战术对于机器学习面试是有用的。 在如今这个就业市场,大家的简历上人均三四个机器学习项目。为了能找到真正优秀的机器学习从业者,面试官一般有两件事会想重点考察,一个是面试者是不是调包侠,是不是虽然做了项目,但是不清楚自己的每一个数据处理,每一个模型,每一个决策背后的所以然。 比如面试官会追问你为什么用Accuracy不用F1,为什么要这么做feature不那么做feature,为什么用这个模型不用那个模型。大家可能在很多面经里也能看到很多这种风格的问题。然后面试官会追问模型的各种理论细节,比如你用了XgBoost,那你讲一讲模型是什么,loss是什么,为什么用二阶泰勒展开,等等。基本上一套下来,面试官就大概可以摸清面试者的理论掌握程度了。 另一个考察的方面是面试者的项目经验。比如神经网络如果loss变成Inf会是为什么,比如label不平衡怎么办,比如怎么处理缺失数据等等。这些问题主要是想看面试者有没有执行一个完整的机器学习问题的能力和经验。 知道了面试官是怎么考察面试者的,大家之后在准备机器学习的面试的时候,就需要关注下这些方面的准备。希望这些分享对你有所帮助!

晒货图片

发布了晒货 3月前

篱笆教育 | 篱笆老师助博士学员走出迷茫,顺利拿到Offer

S同学(本文作者):美国社科专业博士,期望转行数据科学行业,但在行业知识和求职技能上有欠缺,希望通过辅导拿到心仪的offer Dana导师:谷歌数据科学家(美国),斯坦福大学硕士&牛津大学经济学本科,曾收获谷歌、FB、Bytedance、Roblox等DS offer, 全方面掌握Tech大厂DS面试的知识点,帮助学生整理独特又精准的答题思路 我在美国读本科后直博,现修读社科专业。此专业也涉及很多统计知识,我对此方面还是比较了解的,但对Data Science 求职流程不太了解。所以我希望找一个短期培训帮助自己今年寒暑假找到实习,在毕业之后也能拿到的一个比较满意的offer。 我在小红书上看到有人推荐“篱笆教育”后,便先关注了“篱笆教育”的公众号,在接下来的一段时间发现其会定期发布了一些很有用的内推信息和免费的课程活动。综合考量下,我选择了“篱笆”。最后,我也非常感谢老师们毫无保留地教学和辛勤的付出。 因为我身边做Data Science方向的人没有很多,所以我很需要一些本身从事这个行业的人给我一些关于方向上的指导。而作为⾕歌Data Scientist的Dana老师便是做这个行业的,她很专业也很有耐心。在课后聊天过程中,我说出了职业选择的犹豫,道出了对后续发展规划的迷茫,老师也会耐心疏导、提出建议。 此外,我有在B站等平台参加Dana老师的分享会以及模拟面试等活动,感觉真的干货满满,比如:我可以看别人在面试时的状态和回答来意识到自身的不足,及时查漏补缺。Dana老师也是非常熟悉各个大公司的面试流程的,对我在掌握专业知识和面试技巧等方面帮助很大。 “篱笆教育”除了一些专业的知识教授之外,老师也会做一些经验分享。当在求职过程中、平时工作中以及以后职业选择上遇到问题,老师都会积极去解答我、帮助我。希望在求职面试等方面想进一步提升的同学们可以去了解一下“篱笆教育”哦! 如果有和我类似经历的同学,也可以通过邮箱联系我,我的邮箱是:maggiezsq47@gmail.com。

晒货图片

发布了晒货 3月前

篱笆教育 | 一对一针对性指导“实习小白”,篱笆带我拿到实习

Y同学(本文作者):美国卡耐基梅隆大学软件工程专业硕士,一开始求职并不顺畅,通过同学的推荐最终选择了篱笆教育,通过篱笆导师的求职规划和针对性辅导,最终顺利拿下实习offer Ming导师:谷歌软件工程师(美国)、亚马逊资深软件工程师(美国) 我在美国卡耐基梅隆大学修读软件工程专业,去年9月入学后便开始找实习,意向公司是谷歌、Facebook等科技公司。 由于一开始求职面试并没有进展地十分顺利,我便在网上搜索寻找好的辅导老师帮忙培训,最终找到了篱笆。特别巧的是,在知乎上的一篇关于“篱笆教育”的文章下有一个我的同班同学的评论,我便立刻去咨询了她。她认为篱笆非常好,老师教授的知识也十分受用,顺便还推荐了一些“篱笆老师”,因此我也最终选择了篱笆教育。 篱笆老师非常专业、有耐心、也很可爱,他们讲课思路都非常清晰、有条理。在篱笆上课的过程中,我觉得不太懂的知识点可以立即提出来,老师们可以迅速找到题目的关键点,耐心解答,帮忙梳理一些我可能忽略的细节、难点;当哪一节课我想先上,老师也会根据我的情况、需求来安排课程。在课后,我们像朋友一样相处聊天,会深入探讨面试、后期职业规划等话题。 令我印象深刻是,Ming老师是谷歌、亚马逊资深软件工程师,他结合实际情况帮我详细分析并提出了许多建议。比如:若最终还是没找到实习,我暑假该做些什么准备?虽然这并不是关于算法的part,但对当时的我来说非常有帮助。因Ming老师鼓励的话语,我焦躁不安的心终于平静下来且顺利度过了找实习的低谷期。 整体上我觉得篱笆挺令我满意的,也非常符合我的预期。我报了两门课程,一门是算法课,我听老师的讲解后以前感觉困难的地方一下子就通了,那种“茅塞顿开”之感增添了学习的乐趣和成就感;另一门是前端课,因当时我准备面试Facebook前端,老师便针对性地带我把试题都过了一遍,收获颇多。我自身也是因“篱笆教育”的口碑很好被同学成功安利的,所以很推荐在求职等方面有需求的同学来学习! 也欢迎有相似经历的同学和我邮件沟通!我的邮箱是:conniekong6666@gmail.com。

晒货图片

发布了晒货 3月前

Twitter数据分析面经分享 | A/B测试/产品思维

1. AB test 为一个新的广告计费模型做AB test,想看看新的模型是否有效。给了数据,要求做tests 2. 找数据,清理数据,分析,建模和汇报结果 问美国的哪个地区近些年来气候变化最大? 这个是完全开放的,要求自己找数据,清理数据,分析,建模和汇报结果. 3. AB test tables,tweets,tweetid, userid, time follow,follower, followe 1) 为每个用户显示的推文是什么 2) 找出相互之间的跟随关系 4. Product sense 大概就是他们launch 了一个feature, 然后有两个platform的revenue time series和其他covariates的数据. 需要你建模去测量这个feature带来的revenue. 5. Metrics calculation 从yahoo finance上load一个bit-coin的data set, 然后大概算算某几个时间段的perf 6. 简单coding+MLE application 简单coding+MLE application。 Coding问题:罐子里有红糖和蓝糖 取到红就吃点 取到蓝就放回去,再取一次并吃掉. 问罐子最后一粒是红的概率. ML application和model selection有关, ROC AUC什么的. 7. 随机分类 给定100k怎么随机分给三个人,并且分钱的expectation相同. 8. Product metrics 关于如何选metrics定义spam users who come back,coding题是给了user - phone number 的hashmap,通过找linkage的电话号码return可以被identify成同一个人的所有user的hashmap. 9. Python histogram 给了user id,action, timestamp table, 用python output一个可以直接用来画histogram的table (i.e. count of users by active minutes). 10. ML新系统问题 有一个新的ML系统,帮助检测哪些tweet是侵权的或者人身攻击的。基于这个model的output(very likely, maybe,not likely),人工会仔细review 第一大类或最多第一+第二大类。 case的context就是要在mobile platform上增加push notification. 11. SQL metrics 给的input table 有三个column: userid, notification_setting('on' or 'off') 和timestamp 1. 算多少人今天turn off notification? 2. 算多少人在今天是eligible to receive notification? 3. generalize 2 to time series 12. SQL join 两个表,A有100行数据,B有150行数据,primary key是ID. 问:full join后的表有多少行数据?inner join后有多少行? 13. SQL join 关于广告竞拍的. second price auction,要优化price floor/reserve price. 给的数据每行是一个bid price bucket,然后有关于这个bucket一共有多少的竞拍,赢了多少,平均竞拍价格,实际支付价格.

晒货图片

发布了晒货 4月前

篱笆教育 | CS求职的小白“萌新”选手也可以一路升级打怪

Carol同学(本文作者):加利福尼亚大学圣塔芭芭拉分校,计算机编程大四学生,期望求职方向计算机,对于刷题和面试基本没有概念,报名了篱笆教育的算法提升和项目实战课程 Kevin导师:谷歌软件工程师,谷歌面试官,加州大学伯克利分校计算机本科,高效帮助学生掌握算法理论,夯实编程技能,提升面试能力 我在UCSB,加利福尼亚大学圣塔芭芭拉分校上学,现在是大四的学生,快毕业了,学的是computer engineering, 求职方向就是计算机。我当时在网上搜索看有没有带领刷题,帮助你求职的机构,在网上就随机看了几家,最终选择了篱笆教育,先报名了算法提升的课程。 我还没上课之前,在刷题和应试面试这块就完全属于新手,应该说只是知道这个题大概长什么样,它会怎么考,但是对于要怎么写和面试时说什么,就基本上没什么概念。负责我的老师是Kevin老师,Kevin老师是谷歌的软件工程师和面试官,他上课的时候,就会讲一些方法,这些方法可能你自己想想不出来,或者要很长的时间去提炼。上完Kevin老师的课之后,我就慢慢知道了面对一道题的时候要怎么考虑,要怎么下手,要往哪个方面去想,就比你自己刷题要做了很多题才能得到一个结论要快一些,节省了我准备的时间。但同时也还是要自己多练,要自己有投入,有思考。 上完了算法课之后,为了提升自己的项目背景,我又报名了另外一个实战项目营,我现在已经把这个项目写在了我的简历上,让我的简历与我想求职的方向相关性强了很多。现在我和跟我一起上课的同学还在一块提升写的这个项目,因为这个项目是先完成一个框架性的内容,然后每个人自己还可以在框架内添加内容,或者是做一些算法的提升。 关于老师和服务这块,我觉得Kevin老师人挺好的,我自己的水平在Kevin老师教过的学生里可能是比较一般的,就是反应可能没其他的同学那么快,他问了一些问题我十有八九也答不上来,但是Kevin老师就很有耐心,这个在交流方面感觉就是一个很好的品质,我们在做项目课的时候,课后有什么问题也可以直接问他,老师的反馈也很及时。篱笆教务这边的教务老师整体的服务质量也不错,总的来说还是比较推荐学弟学妹们了解一下篱笆教育。 如果有想和我沟通一下的同学,可以通过下面的联系方式联系我: 邮箱:yuyuanwang1999@gmail.com 卫星:paradiswong1999

晒货图片

发布了晒货 4月前

Amazon数据分析面经最新分享 | 运算、产品思维、SQL

1. 求中位数 input 一个 array 一个 chanels.每个chanel必须放至少一个数。求每个chanel的中位数和最大是多少 2. 对array的运算,比如最大到最小的差值 出货不平衡。求每一个subarray 最大值减去最小值的差的和. 3. 数列的顺序变换以及运算 给一个positive integer数列,只能做两种operation任意次:换顺序,reduce an element,要求返回一个sorted数列,前后element的差不超过1,使得最后一个element最大 4. 正则表达式中子字符串的用法 非重复字符子字符串 / 828 dp:所有子字符串在 ilast 处结束的非重复字母数:每个字母的最后一个索引在 [0, i] 处有总计 (i + 1) 子字符串。字母 i 在 dp 中最多添加 i + 1 个新的不同字母 还需要减去已经具有字母 i 的上一个子字符串计数,即 lastIndex + 1,dp = dp[i - 1] + i + 1 - (lastIndex + 1) => cur = cur + i + 1 - (lastIndex + 1) 时间复杂度: O(n) 空间复杂度: O(1) 5. 人口运算的问题 国家/大陆/人口,找每个大陆里的人口最高的那个国家 6.SQL 的连接与大小写 用户表有用户ID,性别和加入时间,订单表是订单ID,时间,买家ID,卖家ID.原题:编写 SQL 查询,查找在加入后第一个月内向男性买家销售至少 3 个订单的女性卖家的月度统计。 7.SQL 的大小写  1. 哪些客户在2015和2016 年都有至少order三次以上 2.算出每个月的not active product 数量 表一 OrderID, ProductID,TransactionDate 表二 ProductID, StartDate, EndDate 3.找出每个月的恢复客户计数 4.在第三题基础上,算一个客户保留率 8. 产品意义问题 有4张表:书籍,销售记录,作者,客户. 1. 找出总销售量大于一个数的书籍,按销售量排序. 2. 算出某年某月客户注册第一天的消费占总消费的比例. 9.SQL聚合功能 编写一个查询,该查询为每个order_id返回一行,其中一列表示产品“a”的数量,一列包含产品“b”的数量,另一列包含所有其他产品的数量。 10.SQL聚合功能 编写一个 SQL 查询,用于计算每个订单的总成本、总数量和每单位成本。

晒货图片

发布了晒货 4月前

机器学习面试干货 | 竞价广告的定价机制—第二高价定价策略

今天我们来讨论竞价广告最核心的一个问题之一,如何定价。 在搜索广告里,比如百度 Google Bing,一共有三个参与方,分别是用户也就是看广告的人,平台方也就是发布广告的人,还有就是广告主也就是为广告买单的人。 在竞价广告里,我们可以大致认为广告主们会分别给一个广告位出个价,然后价高者就获得了这个广告位,就像拍卖一样。 定价问题说的是,当平台方展示一条广告给用户后,平台方应该向广告主收多少钱。 讨论定价问题乍听起来有些多余,有人会说按照广告主自己的出价收取不就可以了 吗?为了解释研究此问题的动机,我们先来举一个例子 : 假设有某个位置的广告机会在竞拍,开始有两个广告主参与,甲出价 1 元,乙出价 2 元,当然乙赢得了此次竞价,如果按照其出价来收费,平台方就向他收取 2 元的费用。在广告市场里,这一拍卖机会其实还会不断重复出现,因此,当同样一个拍卖机会再次出现的时候,广告主可以也存在调整出价的机会, 假设乙在发现自己 2 元钱能拿到流量以后,自然就会想到,是不是可以调低出价,用更低的成本拿到流量?乙将一直不断尝试,直到把出价调低到 1.01 元,发现继续调低就拿不到 位置了。于是系统稳定在甲出价 1 元,乙出价 1.01 元。此时假设又有一个广告主丙加入 竞争,并希望赢下此广告位,那么以此类推,他在不断调整后将会出价 1.02 元,平台方的 收入也就是 1.02 元 。 我们有可能通过调整定价策略来影响平台方的总收益吗?答案是肯定的。 比如我们在甲出 1 元,乙出 2 元参与竞价时,乙获胜了,然后平台并不对获胜的乙收 2 元,而是收取其下一名即甲的出价 1 元,那么乙就没有动力调低其出价了,反正调低也是收取1元。那么当丙加入时,就需要出 价 2 元以上才可以赢得竞价,平台方的这次收入也就变成了 2 元。 这就是著名的第二高价 ,也就是second price定价策略。 所谓第二高价,指的是在只有一个位置的拍卖中,向赢得该位置的广告主收取其下一位广告主的出价,这样的拍卖也叫作 Vickrey 拍卖。 在搜索广告这种有多个位置的拍卖,也就是出现在搜索结果的第一条,第二条,第三条这样有多个位置的拍卖过程中,很容易直觉地将第二高价策略推广成这样一个策略:对赢得每一个位置的广告主,都按照他下一位的广告位置出价来收取费用,这 就是广义第二高价。 第二高价是单个位置拍卖时的最优定价策略,然而广义第二高价却不是多位置拍卖时的最优定价策略 。虽然并非理论上最优,广义第二高价却有着实现简单、容易向广告主解释等诸多操作中的优点,因此在实际的竞价广告系统中是最主流的定价策略。

晒货图片

发布了晒货 4月前

北美CS求职 | Leetcode 2000道题应该怎么刷?

我在平时被同学问到过最多的问题之一就是面对如今有2000多道题目的Leetcode,应该按照一个什么样的顺序,怎么去刷题呢?今天就大家讨论一下刷题究竟应该怎么刷? 在进入刷题方法论的分享之前,我想聊聊三个常见的刷题误区,帮助大家摆正对刷题的观念,这样才能不焦不躁、脚踏实地刷题。 误区一:刷题可以在短时间内攻克 刷题是项系统性的工程,是一个提升你算法能力的过程,所以必须制定一个合理的计划才行。其实任何系统性的学科都是如此,更何况刷题这种CS试金石呢:只有打好基础,后面的学习才能事半功倍。 误区二:只刷高频题目就够了 很多的同学刷题的时候很喜欢刷高频题目,却没有去深入思考为什么高频题目之所以常被考的原因。高频题目之所以常常被考,就是因为考察的知识点很全面,很多高频题往往是由一些基础的低频题目延伸出来的。只刷高频题,却不去了解背后考察的知识点,其实是主次颠倒,这也就是为什么很多的同学会发现自己刷了很多题遇到新题又不会了的情况。 只有深入理解算法的基础知识,并掌握常见的基本套路后,加上系统性的练习计划,才能融会贯通,达到一道算法题到手,就快速想出正确思路的效果。 误区三:会做题就能拿下面试 刷题固然重要,但是不能有会刷题就一定能拿到offer的想法,面试是一个全方位的考察,算法能力,做题的能力固然是一个重要的考察方面,但不是唯一的方向,除了算法能力,你的沟通交流能力,对算法的解释的能力,接收面试官提示,优化算法的能力以及一些其他的软实力,也都是需要去努力提升的。 讲完了常见的一些误区,我们再来说一说究竟这题应该怎么刷: 1. 掌握一门基本的编程语言 如果你的语言能力和表现没有很强的话,我推荐使用Java用来刷题,首先Java语言本身就业市场很大,学这个找工作肯定没坏处,而且语言本身的设计也很优良。将Java作为面试语言,能传递给面试官自己有稳固编程基础的信号。当然如果你的Python基础很好的,用python也没有问题。这两种是面试最常用的语言。 2. 深入理解基础的数据结构 数据结构的掌握是正式刷题前的预备工作,也只有充分理解基础数据结构的原理,才能明白特定数据结构,之所以会在特定题型中常被使用的原因。理解不同的数据结构特性后,也会帮助我们更好地分析时间和空间复杂度。 3. 分类刷题 我们常考的算法类型完全是可以分类的,比如Binary Search,Recursion,DFS,BFS,我们刷题的时候一定要一类一类的刷,千万不要简单地按照easy, medium, hard的顺序来随机刷题,很容易越刷越乱,无法建立成体系的刷题套路。 一类的题目是有很高的相似度的,解题方式和思路上很多时候也是类似的,这样一类一类的题目刷会更容易帮你总结出这一类题目的思考方式和解题方法。当然一类的题目数量也很多,你可以按照频率从高到底去做,完全没有问题。 还有的同学会问刷题是需不需要考虑easy刷多少题,medium多少题这样,我觉得在刷题过程中并不太刻意的去关注这个,就按照frequency一题不落的往下做就行了。

晒货图片

发布了晒货 4月前

Meta/Facebook最新数据分析面经分享

1.SQL聚合/窗口功能 视频通话表 呼叫者|收件人|日期 |call_id |呼叫长度 Q:过去 30 天,呼叫者发起呼叫的前 10 个 2.SQL聚合/窗口功能 用户表 user_id |age_group |国家|日期 | dau_flag 问:昨天在我们这里花费的时间/活跃用户的总和? 3. 产品感 如果过滤器垃圾邮件好友请求。列举出一系列criterion之后,如何验证你的criterion是正确的,最后一个问题是,可以添加什么新 feature来防止垃圾邮件. 4.产品感 筛选出在某天有多少人通过了好友请求,对于某个人overtime他的好友通过率是多少. 5.产品感 news feed 缩小25% 怎么衡量有没有用,然后就是经典的如何解释美国和泰国两个地区metric 表现不一样? 6.SQL 功能  示例行: 日期|search_id |user_id |age_group | search_query -------------------------------------------------------------------- '2020-01-01' |101 |9991 |“<30”|贾斯汀·比伯 “2020-01-01” |102 |9991 |“<30”|“门洛公园 ”2020-01-01“ |103 |5555 |“30-50”|'john'TABLE 2 示例行: 日期 |search_id |result_id |result_type |点击-------------------------------------------------------------------- '2020-01-01' |101 |1001 |“页”|TRUE'2020-01-01 ' |101 |1002 |“事件”|FALSE '2020-01-01' |101 |1003 |“事件”|假 的'2020-01-01' |101 |1004 |“组”|FALSE Q1:在过去 7 天中,10 个最受欢迎的搜索查询是什么? 问题 2:执行返回多类型结果的搜索的用户占多百分比? 7. 贝叶斯/ 统计 考的基础概率,bayes,comment/dau distribution 要画分布然后根据你估计的mean和median,问你x天后p95和p50的mean怎么变(regression to mean) 8. ML模型基础 一个binary classification的case,问了rf和gbdt的区别,它们的优缺点,loss function是什么,用什么求解(gradient descent)然后问了gradient descent的意义是什么 9.SQL聚合/窗口功能 表:user_actions ds (字符串) |actor_id|post_id|关系(字符串)|互动(字符串) '2019-07-01'|431 |7921 |“朋友”|“喜欢 ”2019-07-01'|431 |7921 |“朋友”|'评论' 2019-07-01'|938 |9235 |“页面”|“哇 ”2019-07-01'|209 |7220 |“组”|“爱” 2019-07-01'|384 |7128 |“组”|'分享' 2019-07-01'|492 |0879 |“页面”|'喜欢' 2019-07-01'|887 |3842 |“组”|“哈哈” 表:user_posts ds (STRING) |poster_id|post_id| '2019-07-01'|123 |7921 | '2019-07-01'|123 |3910 | '2019-07-01'|004 |3495 | '2019-07-01'|832 |3294 | '2019-07-01'|283 |4820 | '2019-07-01'|822 |2472 | '2019-07-01'|119 |8204 | Q1:昨天好友帖子上有多少点赞? Q2:如果我是用户123,你们会如何计算我所有帖子的平均点赞数? 产品: 如何在新闻源中定义有意义的互动? 10.SQL聚合/窗口功能  session id, userid, session start time, session end time, date_stamp, app a. 求各app的session之间的平均间隔,就是关闭一个session然后打开另一个session之间的时间 b. 每个user的bounce rate,好像是app1到app2再回到app1 算一个 bounce

晒货图片

发布了晒货 4月前

ML Design 必备知识 | 机器学习的“重灾区”—广告

Facebook早期的一个负责人杰夫在离开FB时留下过一个很著名的话:“为什么我们这一代人中最优秀的头脑,都在思考如何让人们点击广告,这太糟糕了。” 这句话从侧面说明了几件事,第一,对于如今的互联网公司,广告是最核心的业务之一,所以才会需要这么多人在广告业务里。第二,广告比大家想象的要复杂,所以才需要最聪明的头脑来一起解决这个问题。第三,点击率,是广告系统非常核心的一个指标之一。 广告系统不仅对于公司来说重要,对于ML从业人员来说也很重要。我们说最重要的ML(机器学习)应用场景就是搜广推。对于ML面试来说,广告系统相关的ML Design也是一个非常高频的问题。今天我们就来大致聊一聊广告系统。 首先广告分为很多种,比如display ads(展示广告), search ads(搜索广告)。 比如大家用百度Google或者Bing搜索的话,出现在搜索结果上方的就是search ads。 search ads也分很多种,比如text ads(资讯广告), product ads(产品广告)。 广告是一个三方系统,广告主,也就是发布广告的人,用户,也就是看到广告的人,或者广告曝光的对象,以及平台,比如Google比如Bing。 作为平台方,我们需要兼顾这三方的利益,这就让这个问题变得复杂了起来。比如平台方希望能多从广告主那里赚钱,但是用户希望看到更少的广告或者更相关的广告,而广告主希望在预期开销内获得最多的曝光,点击或者转化。这些利益从某种程度说是互相矛盾的,所以该如何设计我们的系统,策略,就变成了一个非常复杂的优化问题。 广告的收费方式也有很多种,比如给用户看一次或者曝光一次广告,平台就向广告主收一次费,又比如用户点击一次,才收一次费,或者我们还可以用户实际购买了产品,平台才收一次费用。 而收多少费用,又是一个非常复杂的商业问题,甚至是数学问题以及机器学习问题。如果大家熟悉百度曾经的竞价广告的新闻的话,还会发现这甚至还可以是一个伦理问题商业道德问题。 那么当用户在搜索栏里输入一个问题后,搜索引擎是怎么决定展示什么广告给用户呢。 是返回和问题最相关的广告?还是平台方能赚钱最多的广告?还是用户最有可能点击的广告? 这又是一个非常复杂的问题。 不同的公司不同的产品,制定的策略都不太一致。 从数以百万千万的广告池里,挑出最终的几个广告,这里经历了层层的策略筛选,层层的预测和模拟。可以说每次你看到一个广告的时候,背后都是大量工程师科学家的心血共同决定了你看到的是这样一条广告。 一般广告系统的流程是: (1)召回:首先我们会做recall,也就是召回。我们通过一些人为定的策略和ML算法预测,从广告库里来选出几千个或者几百个选项。 (2)相关性预测:接着我们会用非常复杂的ML算法,来从这几千个选项中,再筛选出最相关的广告,这一步也叫precision,或者相关性预测。 (3)预估点击率:接着我们会预测每个广告的CTR。也就是click throught rate。也就是用户点击的可能性。 CTR * 广告主的出价,就是展示这个广告的话,平台的收入预期。 我们就可以通过这个预期,决定最终给用户呈现什么广告。 当然就像我之前说的,广告是个很复杂的系统,我们刚才说的这个流程只是一个简化版的流程介绍。实际上的流程会复杂得多很多。 大家可以发现,整个流程里需要大量的预测,比如预测相关性,预测点击率,预测转化率购买率,这也是为什么广告系统,是机器学习最核心的应用领域之一的原因。 以上就是今天的全部内容,如果对这个话题感兴趣的话,欢迎大家留言告诉我们。

晒货图片

发布了晒货 4月前

篱笆教育 | 从修改简历到模拟面试,篱笆老师帮我求职升级打怪

W同学(本文作者):国内985本科,哥伦比亚大学硕士,期望求职data方向 Jenny导师:谷歌数据分析师,加州大学圣地亚哥分校硕士,擅长帮助学生挖掘自我能力并顺利通过工作面试,短时间内快速高效提升面试技巧和语言水平 我之前一直没有确定好求职的方向,在回国和留美之间有一些摇摆不定,所以一个是面试投的比较晚,另一个就是一开始对方向有一些迷茫,我本来想找的是暑期实习,但是当时已经二月份了,我就特别焦虑,然后篱笆教育的教务导师通过领英联系上了我,问我有没有找到实习,我就准备试一试,因为我觉得这种辅导服务可以帮我缩短准备时间,提高效率,所以想最后再挣扎一下,就报名了篱笆教育的求职辅导课程。 最开始的时候不知道一些面试技巧,也不知道怎么介绍自己的经历,就是该怎么推销自己不是很清楚。上了辅导课之后,jenny导师首先帮我修改了一下简历,我之前简历可能就有一些问题,然后就一直拿不到面试,老师帮我改了之后现在拿到面试的机率就大大提高,一个是帮我加了一些技能上的关键词,这样就保证机筛的时候通过的概率比较高,第二个是帮我把经历的描述,语言修改的更加native一点,也更加接近data这个岗位的要求。老师改的真的很细心,和我一起梳理了之前的经历,让我的简历比之前更丰富,同时又很符合data这个岗位的要求,所以也帮助我拿到了不少的面试。除了修改简历,jenny导师也帮我准备了一些可能问到的问题, 比较准确,我现在面试要比以前得心应手很多。 jenny老师人特别好,我记得有一次她身体不舒服,嗓子哑了,本来那一周是没有办法上课的,后来我拿到了一个面试,我就想问一下她怎么准备,然后她就说这个知识点是我们下节课要过的,前一天取消了,要不我们今天就把课上了吧。她上课的时候身体还没有完全好,还在咳嗽,还是帮我上完了课,我还是挺感动的。平常我问老师一些问题,回复的也很及时,我觉得不是那种求职机构的很商务的感觉,就是对学生很负责,然后也真心希望我们能拿到心仪的offer的那种感觉。 篱笆教育整体给我的感觉就是很专业,然后像这种12h的项目的课程安排也很合适,导师的专业度和耐心程度都非常高,jenny导师也给我分享过一个篱笆这边的面经库,我觉得这个也挺好的,总之非常推荐给在求职过程中遇到一些问题的同学们! 如果有想要和我沟通的话,也可以通过下面的方式联系我: 邮箱:fall2022go@yahoo.com

晒货图片

发布了晒货 4月前

Google 谷歌最新数据分析面经分享 | 统计、辛普森悖论

Google 谷歌数据分析最新面试真题: 4. even和odd 位置的各自sum 一个list,算出even 和odd 位置的各自sum 5. 二项分布 生成双项分布的一个matrix,取每一列的和做分母,让每一列的和为1. 6. 最长连续递增子阵列长度 写代码,长度最长的连续递增子数组, 扩展:允许一次violoation, 就是允许array里面有下降的情况,怎么修改 7. 截断正态分布 从 X~N(0,1) 生成 100 个样本,过滤 x>0 并在其上创建直方图。 8. 颜色调查 红绿蓝三色,做一个调查,怎么设计 / 问要设计网络问卷,调查最喜欢的颜色,有哪些需要考虑的. 9. 辛普森悖论 辛普森悖论: 给了一个context 是谷歌 的 一个product,说有一个指标 在每个国家平均值 都随着时间的推移而上升,但是全球平均值 下降了,问为什么 10. AB测试 AB testing, 1000 个人处理, 1000 个人 control, 但是系统坏了, 100个看到 ads 的人 被记录成了没看到, 所以现在系统里显示的是 1100 VS900, 问对结果什么期望 11. 辛普森悖论 问某个指标在10个类别里都下降了但是总体平均却上升了,为什么 12.辛普森悖论 如何构建ab testing,如何收集数据,里面隐藏了一个辛普森的悖论,如何解决. 13. 岗前分析 一个跟时间相关的testing问题,一个功能 launch前后的改变如何测量等. 14. 线性回归线性回归 如果我们有1000个数据点和900个参数,那么模型会发生什么。

晒货图片

发布了晒货 4月前

Google数据分析岗位最新面经-4月24号

Google 谷歌数据分析岗位面试,最新面试题分享: 1. 概率随机问题 Given an Unfair coin, 如何生成fair probability (50%). 假设这个coin生成head概率为p, 可以考虑生成(tail, head)or (head, tail) 因为他们的概率 都是p(1-p),如果得到(tail, tail) 或者(head,head)重新生成一个pair就好了. 2. 参数和方差问题 OLS, 把现有数据duplicate一遍,问参数estimate和方差,Confidence interval有啥变化。 根据公式参数不变,方程相当于scale了下除以sqrt(2),所以变小了. CI也变小了. 3. OLS的assumption OLS的assumption有哪些?linear in the predictors, 变量independent(no collinearity), error terms’ mean为0并且similar variance(no heteroscedasticity)

晒货图片

发布了晒货 4月前

篱笆教育 | 三位导师一起辅导,让我最终收获Offer

学员背景(本文作者):国内211院校,研一,期望求职方向为数据分析 Dana导师,谷歌数据科学家,斯坦福大学硕士&牛津大学经济学本科,曾收获谷歌、FB、Bytedance、Roblox等DS offer, 全方面掌握Tech大厂DS面试的知识点,帮助学生整理独特又精准的答题思路 Jenny导师,谷歌数据分析师,加州大学圣地亚哥分校硕士,帮助学生挖掘自我能力并顺利通过工作面试,短时间内快速高效提升面试技巧和语言水平 川川导师,微软应用科学家,宾夕法尼亚大学数据科学硕士,美国数学建模大赛特等奖,多年教辅经验,曾任职多家著名职业培训机构导师,综合能力强,有扎实的数学、 计算机、机器学习背景 我在国内211院校读研一,正在找一些数据分析的实习,期望求职的方向是短视频的平台,比如说字节、快手这样的公司。 我找到篱笆教育的时候时间已经比较紧了,大概还有一周就要下一次面试了,并且我的导师都在国外,还有时差上的问题,Dana导师为了让我能够尽快的提升能力去面试,帮我联系了另外两位导师川川导师和Jenny导师一起负责我的授课,尽量把我的课往前排,我们也会提前沟通协调好上课的时间,有的时候Dana导师凌晨还在给我上课,还是非常辛苦的。 同时因为每一位老师擅长的方向也不一样,我的授课老师也是根据一些不同的专题帮我对应的去选择的。川川导师对机器学习的面试很有心得,很适合应对一些应试性的回答,因为时间比较紧张,也会挑着一些重点的和我说,Jenny老师也比较负责,比较擅长个人简历面,对回答一些个人简历的问题和SQL的问题比较擅长, Dana导师就是数据科学方面的,关于一些产品题目,非常有经验。 总结来说导师们教的东西会更接近北美公司的真实求职情况,虽然都是用中文授课,但是应用在国内求职的话还需要再消化一下,所以如果是在国内求职的小伙伴建议可以选择篱笆国内的导师。但知识和求职经验都是比较相通的,最终我顺利拿到了快手的数据科学暑期实习。 整体上来说感觉篱笆教育的老师非常专业,在国内外有求职需求的同学可以放心找他们辅导,国内的小伙伴可以找篱笆国内的导师,或者如果想接触国外的求职内容可以和北美的老师们一起上课

晒货图片

发布了晒货 5月前

为什么美国程序员工作比中国程序员工作轻松、加班少?

1、产品迭代速度的差异 同类的app,不论是电商还是视频,国内的app远比国外的复杂,变化更快,功能更多。三天一小改,五天一大改,过个节都要出一套ui,新功能层出不穷,做活动此起彼伏。 硅谷技术强,但是产品迭代速度比国内差太远了。所以,Uber,Airbnb,Linkedin在国内的市场表现都不怎么好。很多技术壁垒不高的产品,比的就是用迭代速度去占领市场。技术壁垒高的产品,不是迭代速度能解决的。中国的IT公司对用户的需求感知的特别快,他们清楚的知道用户需要什么。国内公司对竞争对手的动作也特别敏感(抄的特别快)。你会发现, 阿里,京东比Amazon的功能多多去了。饿了吗,美团也比Ubereats功能多多了。王者荣耀的新东西出的实在太快了。 Google的大佬很多都是工程师出生,重技术,轻产品。而硅谷大部分有特色的新型互联网企业早期都有大量的前Google员工,所以这也是硅谷的一个特色之一。所以中国的IT和硅谷其实是两种IT。迭代速度和发现新的Use Case是中国企业的强项。为了保持这个优势,唯一的方式就是加班了。 2、开发流程的差异 跟国外公司比,国内公司的一个问题就是管理者素质不高,对问题的边界定义不清楚。提需求的人没有成本,无止境地提不靠谱的需求。码农自己开发时也追求快糙猛,提高了系统的风险。 硅谷的大的科技公司在项目实施之前都会写非常详细的文档,描述项目内容,技术难点,流程,甚至测试和未来检测,并且会反复开会讨论这些问题。会议是生产力。讨论得越清楚,返工就越少。比如系统设计,几个组的人一起讨论清楚系统的边界,上下游系统的关系,你的问题边界和需求是很清晰的。这样能有效地降低了风险,极大地提高了软件的质量。 3、社会形态的差异 社会形态的差异肯定是原因之一。美国是一个很讲究Work Life Balance(工作生活平衡)的国家,人权大于公司的利益。所以如果企业如果过分“压榨员工”,是肯定会被劳工部告的。大公司只要有任何风吹草动,都可能惹上负面新闻。美国人看重家庭大于工作,家庭比工作重要。所以那种牺牲自我,保全公司利益的行为是很少会发生的。

晒货图片

发布了晒货 5月前

未来五年,数据科学家(DS)的岗位需求会有哪些变化?

DS这个岗位刚出现时,各个公司对于它的定位和职能都不太统一。经历了几年的发展之后,目前(2021年底),把DS作为职位名称的职能大致已经固定了下来,有做机器学习建模的,有做产品分析或者统计实验设计的,也有全栈的。那么DS的岗位需求会如何变化呢,我们根据职能分两点讲: (1) 对于产品分析以及统计实验类的数据科学家,它的需求应该在未来不会有太大的变化。这是因为这类岗位其实并不是一个新事物,在机器学习(Machine Learning) 和数据科学(Data Science)这类的概念还没开始火之前,它们就已经存在了。各个公司对于分析以及统计实验的需求以前存在,现在以及未来五年也将一直有。数据驱动的决策制定在未来五年将会一直是大部分科技公司决策指定的核心方法,这类职位也将一直有着比较好的岗位需求。 (2)对于机器学习类的DS和应用科学家(Applied Scientist),随着越来越多的应用场景可以有机器学习的一席之地,这类岗位在未来五年的供给也不会出现突然的缩水。但是另一个事实是这类岗位的竞争日益激烈:越来越多的Phd也在往这个方向涌入,同时也有很多科技公司也明确得将机器学习的职能定给了ML Engineer,机器学习类的DS的就业压力就进一步增大了。 最后做个总结: DS这个岗位在大部分科技公司已经有了比较明确的职能。做分析与实验的DS将依然会是DS的主要岗位方向,而ML方向的DS将依旧保持比较大的就业竞争压力。

晒货图片

发布了晒货 5月前

篱笆教育 | 从0到一举拿下Meta DS Offer

学员背景(本文作者):董同学,加利福尼亚大学圣巴巴拉分校(UCSD)统计学PhD,今年暑假毕业,最终获得Meta Research DS offer 导师背景:Dana导师,谷歌数据科学家,斯坦福大学硕士&牛津大学经济学本科,曾收获谷歌、FB、Bytedance、Roblox等DS offer, 全方面掌握Tech大厂DS面试的知识点,帮助学生整理独特又精准的答题思路。 因为我是统计学专业的,所以一开始先确定的是要找DS相关的工作,后面看了篱笆教育发的一些分享视频,知道DS主要分成两类,一类是谷歌这类更偏产品和analytics,另一类就会更偏ML,考虑到我自己学习过程中做的ML项目会更多,自己也比较喜欢,大概就决定要找侧重ML方向的DS岗位,最后拿到了Mata 的 Research Data Scientist offer, 可以说是超出预期的实现了求职目标,我个人还是非常满意的。 一开始结识篱笆教育是通过公益的mock interview,当时刚面过两家公司,但是感觉经验还是比较欠缺,都没能拿到offer,所以报着学习的态度,想着多了解一下真正的面试程序是怎样的,就报名参加了免费的mock interview。第一次做mock interview 的时候就是之后带我的Dana导师面的,当时还是很紧张的,尤其是和product有关的,感觉就特别没底,我看过的很多面经里都提到会考AB testing,所以看到产品问题优先想到的就是可不可以用AB test来做,后来在学习过程中发现其实不是。而且很多答题结构,比如 clarify question 也感觉做的挺差的,特别是mock interview 的时候答完了导师就会立刻点评,我心里没底的这些问题马上就会被一阵见血的指出来,也就是在这个时候我就下定决心一定要把自己的短板补起来。 在第一次mock interview 之后,我就去详细了解了一下Dana导师的背景和面试辅导的服务,发现Dana导师拿到过很多我梦想中公司的offer,也是针对于DS方向的,而且也当了很长时间的面试官,当时就觉得这不碰上出题组了吗,Dana导师的经验对于我来说真的非常有价值,价格也在合理的范围内,于是我就报名了篱笆教育的面试辅导服务,由Dana导师担任我的辅导老师。 后面一段时间就一直在做针对性辅导和模拟面试,每一次侧重的方向都不一样,通过这样不断的打磨自己的短板,我的能力有了全方位的提高。像product 相关的问题,之前面的时候我可能就套着面经去答,或者很紧张答不好,Dana导师帮我详细的梳理了题型和回答的思路,在反复练习之后,我反而听到这个问题就有一种“我就知道你会这么问”的感觉,很自信的就能答出来了。 除了面试这个方面,平常我上完课包括面试完对自己做一个回顾的时候会发现自己有一些问题没有真正的理解,就会在微信再私下问一下Dana导师,自己在看面经看到一些高频题解答不出来的时候也会向Dana导师请教一下,Dana导师也会非常耐心的解答,并且给出自己的一些建议和看法,让我少走了很多弯路。 我想说整个服务过程中,感觉篱笆的老师非常的贴心,也很专业,可以为学生做到个人定制,因为每个人的能力在各方面的强弱可能不一样,也就是优势点和弱势点可能不太一样,我特别明显的弱势点就是和product相关的问题,在这个过程中就一直有针对性的提升,能够切实的感受到每一次面试都要比前一次更好。 求职的时候有老师的陪伴给我带来的感觉特别好,真的就像有一盏明灯,贴心的帮助,也非常照顾我的情绪,结课的时候教务老师问我有没有什么建议可以帮助篱笆教育提升的,我觉得就是完全超出预期,希望能推荐给更多有需要的人。今年7月份我就要onboard了,到时候说不定还能和导师们线下约个饭,对新的职场生活期待满满! 如果有同学想要求职类似方向或者想了解篱笆教育的一些服务情况的话,可以邮件联系我交流,我的邮箱是: howarddla6@gmail.com

晒货图片

发布了晒货 5月前

AB testing是万能的吗?这些陷阱你一定要知道

面试中最常问到的问题或在实际的工作中产品经理或者工程师最常问数据负责人的问题就是,当你的AB testing跑完,有一堆数据摆在你面前的时候,应该如何正确的解读这个数据?当然不是仅仅看两个组的差别这么简单。 下面我们就来分享一下有哪些方式可以避免AB testing里的坑: 一、确保数据真实可靠 在收集数据的过程当中经常会有一些“噪音”,这是我们第一个需要排查的事情,确保了数据的可行性,我们才有可能进行下一步的分析。 二、Segmentation 分层分析 比如说整体上控制组比对照组/实验组的效果要好,是不是说我们的实验就失败了呢?并不一定,这个时候我们可以分不同的层次来看,比如说用户的年龄、性别、所在区域,和我们产品建立关系的时间,用户在实验之前使用的频率等等,我们称之为不同的dimension(维度),在不同的维度上,控制组和对照组的表现可能完全不同。 三、Funnel Analysis 漏斗分析 单纯的一个指标的好坏不一定具有完全的代表性,我们这个时候可以看一下它上层的漏斗或者下层的漏斗表现如何,来进一步具体的分析用户的痛点和转化的效率。 四、Decomposition Analysis 分解分析 分解分析比较适合于一些可拆分的衡量指标,比如说社交媒体当中他们特别在乎的一个衡量指标就是日活量或月活量,当我们发现我们平台或产品的日活量较上个月或较去年的同类水平下降了10%的时候,就需要关注是否出现了问题。分解分析就是一个能较快速的找到原因的办法,我们可以进一步将日活量拆成不同的部分来分析,例如新用户和老用户两个部分,日活量的下降是我们拉新力度,也就是新用户的增长不够快,还是因为我们的客户留存变差了呢? 五、注意 Selection Bias 选择性偏差 当我们在设计AB testing的时候我们可以完美的控制一些confounding variables,也就是说我们在设计的时候可以保证控制组和对照组在其他的性质上非常相似,他们唯一的区别就是有没有这个新的功能。 但是,我们所有能看到或能使用这个新功能的用户当中,并不是所有人都会使用这个功能,也就是我们可以控制用户看到或者看不到这个功能,但是我们无法控制用户使用或不使用这个功能,因为这是一个个人选择的问题,也就是我们说的选择性偏差。因为这一问题的存在,因此我们不能保证使用这个功能的人和不使用这个功能的人,在其他性质上都非常相似。 比如说我们想看看使用某一个功能是否能带来利润的增加,我们发现使用这个功能的人,为平台带来的利润非常的低,那是不是说这个功能抑制了利润的增加呢?不是的,正是因为他们的花费少,他们才想要使用这个功能,所以但看目前的数据,“使用功能”和“低利润”之间的因果关系是不成立的。我们应当用其他模型来验证两者之间的因果关系。 综上,AB testing 的解读绝不只是看板看数据这么简单,以上都是在AB testing 中常见的分析手段,希望对你有帮助!

晒货图片

发布了晒货 5月前

机器学习中的特征提取技术已经被神经网络中的特征提取淘汰了吗?

前不久CMU的刘博士出了一篇很优秀的综述论文,他总结了下当前自然语言处理NLP或者ML发展的四个范式。 分别是 基于非神经网络的完全监督学习 基于神经网络的完全监督学习 预训练,精调范式 (Pre-train, Fine-tune): 比如基于MLM的BERT 预训练,提示,预测范式(Pre-train, Prompt, Predict):各种Prompt Learning 方式 每个发展阶段,其实都有需要人来参与到的部分。比如第一阶段的时候,我们需要做特征工程,我们训练模型的过程就像是炼丹。因为特征处理的方式,选择的方式,组合的方式,都对最后模型的效果很有影响,就像炼丹时调整药物配比一样。 第二阶段,我们需要做Architecture Engineering。也就是找到最合适网络结构,效果最好的网络结构。比如应该用CNN还是RNN,还是MLP,是要多少层,是谁连着谁。这个时期从业人员有时候会戏称自己是Neural Network Architect。 第三个阶段,我们需要做Objective Engineering,也就是找到对于一个task或者下游task最好的优化目标。 第四个阶段,我们需要做Prompt Engineering,找到最合适的Prompt。 从每一个阶段到每一个阶段我们都从一些工作当中被解放出来了,而又引入了一些新的工作。比如进入深度学习时代后,我们从特征工程中解放出来了,但是又要开始思考怎么找到最好的网络结构。 我们相信神经网络的强大,相信它的表达能力足够强,能自己理解特征与特征直接要怎么interaction,能自己理解什么特征是重要的什么特征是不重要的。 不过这个并不是说我们做深度学习的时候就完全不做特征了。现实工作中做深度学习项目的时候,我们依然需要结合场景来生成很多特征来来喂给模型。比如做点击预测的时候,我们要人为生成一些统计特征来描述用户的历史习惯;做推荐系统的时候,我们就要人为生成一些用户和推荐品之间的历史交互的特征来辅助我们做推荐。 所以深度学习的时候,我们依然要做特征工作来让深度模型更好的理解原始数据里的信息。但是特征工程的工作量,远远小于非深度时代的时候我们需要做的工作量。而且特征工程在深度时代,就像我们之前说的,往往也不在是我们在训练模型时最主要的工作内容了。

晒货图片

发布了晒货 6月前

互联网公司在面试数据分析师时一般会问什么样的问题?

每个公司的面试过程其实不尽相同,但考点无外乎以下几类: 1、产品思维题 2、统计题 3、Coding题:SQL/Python/R 4、optional(可能会考):BQ(Behavior question)   先来说说也许让某些求职者很头疼的BQ,每个公司BQ考的都不一样,比如对于Amazon,BQ是很重要的一环,Google在onsite interview的时候也会有专门的45分钟来考察BQ,BQ其实考的是你能不能通过过去的学习和工作经验来展示出你和面试公司的文化价值契合,不同公司看中的方面并不同,所以准备BQ问题的方法是: 首先从晚上查找公司的文化、核心价值观、业务指标等公司层面战略指导性的方针 其次准备5-10个例子、故事,并且紧扣第一条,也就是公司的核心价值观和战略发展方向  再来说说每个公司都会考的统计题,不同公司考察的难度不同, 但考点总结下来都是两大类:概率题和统计模型的原理及应用。概率题的考点主要有: 贝叶斯定理(Bayes' theorem) 全概率公式(Law of total probability) 互补事件概率(complementary events) 条件概率(conditional probability) 以及它们的综合应用 统计模型的原理及应用则需要大家对常用的统计模型有比较深入的理解,包括: 线性回归 (interaction terms, L1/L2 regularization) logistic regression tree-based model(random forest, bagging, boosting) 还有一些模型,也有可能被考到,比如SVM、Naive Bayes、K-means、PCA等等  产品思维题可以分为两个大类,Dana总结来看有两种类型的公司,一类是single-user的company,比如google、meta(facebook)大多数属于这一类,还有一类是multi-user的,比如doordash、roblox,amazon,它们都是platform-wide的公司,所以很多时候要考虑几个不同party之间的平衡: doordash:dasher、merchant、consumer roblox:developer、player amazon:consumer、merchant、deliverer  针对single-user company,又可以进一步分成B2B和B2C,有的公司的产品是我们每天可以接触到的,而有一些面向企业级用户的产品我们可能感觉很遥远。所以不同公司的产品思维题应该用不同的答题框架,推荐大家https://www.bilibili.com/video/BV1db4y1q7Dn?spm_id_from=333.999.0.0,这里以meta为例子,详细剖析了产品题的答题思路和要点,并且模拟了面试官的回答提供了很多不同形式的followup后续问题。这种答题思路对大部分B2C的产品题都是有效的。 最后来说说Coding题,一般大部分面试都可以选择SQL,不过目前很多大公司在最后一轮面试中不允许再用SQL了比如Google,只允许使用Python/R,可以看出考察的重点在不断向Python和R倾斜。SQL需要准备到什么程度以及常用的备战面试的函数可以看这里:https://www.zhihu.com/question/379694223/answer/2223230199.

晒货图片

发布了晒货 6月前

机器学习大方向里,有什么前景好的细分方向吗?

这个问题可能从应用场景的角度出发可以更好的回答。目前工业界哪些场景是机器学习应用最广泛的?而目前大厂哪些组或者部门有着最多的算法工程师或者机器学习工程师? 如果回答了这些问题,那机器学习哪个方向在工业界前景最好这个问题就能相应被回答。 目前机器学习在互联网工业界最重要的应用场是:搜广推。也就是搜索,广告,推荐。 这是三个不同的场景,但是他们之间的算法技术栈是高度相关的。 比如,搜索要解决预测哪些结果和用户的输入词更相关的问题,而广告同样也要解决哪些广告与用户需求更相关的问题。推荐系统要推荐用户更可能点击的产品,广告系统同样要推荐用户更可能点击的广告。 这些场景通常是与产品盈利以及产品用户体验最相关的场景,同时也是绝对以算法来驱动的场景。 这意味着,与这些方向对应的部门或者组,也就有了大量的算法人员的需求。而这方向的从业人员,往往也有着很广的就业面。 那么搜广推对应的机器学习技术有哪些呢? 搜广推是个很复杂的系统,这不是一个可以简单就能概括出来的问题,但是简单来说来就是: 自然语言处理NLP/计算机视觉CV/传统ML技术在搜广推都有着广泛应用。 就比如: 在广告领域,往往需要判断广告文本和用户输入文本是否在语义上相关。这意味着做这个方向的组将是一个非常NLP的组。而如果负责的广告主要是图片广告,那CV相关的技术同样也会很重要。 同时,搜广推也同样有着这个领域特定的技术:比如召回相关的模型,排序相关的模型,点击转化预估相关的模型。 大部分人肯定没法做到对推荐系统的每个部分都了如指掌,就如前文说的这是一个很复杂的系统,往往一个推荐系统产品是由好几个算法组一起负责,而每个组只负责系统里的一个子环节。所以你可以在大致了解推荐系统基本流程后,挑选自己喜欢的一个方向去深耕。 总结一句来回答题主的问题就是:夯实好自己NLP/CV/传统ML相关的基础(比如了解NLP和CV的一些主流模型),同时加深自己对推荐系统的了解。 当然对于非互联网领域,有些技术则非常重要。比如在金融领域,异常检测与时序预测是应用场景最广泛的机器学习技术。 如果对推荐系统感兴趣,欢迎点赞或者留言。篱笆老师在以后的文章可以更具体地介绍推荐系统相关的知识。 以上。

晒货图片

发布了晒货 7月前

美国机器学习方向的 master 找工作前景如何?

为了更好得回答这个问题,我们先来介绍两个背景知识。 第一,北美目前机器学习相关的硕士可以大致分为三类。第一类是计算机类/CS项目。随着机器学习近几年越来越火爆,越来越多计算机硕士项目开设了ML或者AI方向的track或者concentration。第二类是数据科学/DS类的项目,近几年虽然DS项目越来越多,但是申请难度却日益加强。最后是其他类项目,比如统计/OR/Management Science and Eng/CSE/IS/EE。这些项目为了与时俱进,在课程设置的时候往往都会安排一两门机器学习相关的课程。 第二,北美目前机器学习相关的岗位大致可以分为三类。第一类是以发论文为目标的researcher岗位。第二是机器学习工程师Machine Learning Engineer或者Software Engineer, Machine Learning。第三就是数据科学家Data Scientist或者应用科学家Applied Scientist。 这三类岗位中,第一类岗位不是Master的目标岗位,我们来重点讨论第二类MLE和第三类DS岗位。首先,并不是所有的DS都是与机器学习相关的。这就意味着,市面上绝大多是的机器学习类的岗位,其实是Engineer岗。例如Google,Facebook,LinkedIn等公司,都是以MLE为主要的机器学习岗位。所以如果之后想以机器学习为职业发展方向,那么MLE是一个机会更多的岗位。如果本身对于做Engineer并不感兴趣,例如微软或者Amazon的Applied Scientist以及很多金融企业或者传统企业,也提供了一些ML相关的工作机会。 大部分面向毕业生的Entry Level岗位往往重视的是员工的执行能力。而ML类的岗位往往还需要有比较好的领域理解(Domain Knowledge)和设计能力(ML Design),这些能力有时候并不是应届毕业生所具有的。这就意味着其实针对应届毕业生的ML类的岗位其实并不多。同时,很多各个学科的Phd也在考虑ML为自己的就业方向。这两个主要因素造成了ML方向的new grad岗位竞争往往是相对激烈的。但是ML这个方向的本身依然有着非常有很好的前景,在职跳槽后也有着很多的就业机会,如果你是一个对ML有热情的人,这一定是一个值得你去为之努力的方向。 最好,通过以上的分析,我们可以看出,CS, ML Track的毕业生,有着最好的就业前景。同学们在做职业规划的时候,也要尽早确定好自己是想在ML DS这个方向上深耕,还是同时兼顾Engineer的相关技能。

晒货图片

发布了晒货 7月前

美国机器学习方向的 master 找工作前景如何?

为了更好得回答这个问题,我们先来介绍两个背景知识。 第一,北美目前机器学习相关的硕士可以大致分为三类。第一类是计算机类/CS项目。随着机器学习近几年越来越火爆,越来越多计算机硕士项目开设了ML或者AI方向的track或者concentration。第二类是数据科学/DS类的项目,近几年虽然DS项目越来越多,但是申请难度却日益加强。最后是其他类项目,比如统计/OR/Management Science and Eng/CSE/IS/EE。这些项目为了与时俱进,在课程设置的时候往往都会安排一两门机器学习相关的课程。 第二,北美目前机器学习相关的岗位大致可以分为三类。第一类是以发论文为目标的researcher岗位。第二是机器学习工程师Machine Learning Engineer或者Software Engineer, Machine Learning。第三就是数据科学家Data Scientist或者应用科学家Applied Scientist。 这三类岗位中,第一类岗位不是Master的目标岗位,我们来重点讨论第二类MLE和第三类DS岗位。首先,并不是所有的DS都是与机器学习相关的。这就意味着,市面上绝大多是的机器学习类的岗位,其实是Engineer岗。例如Google,Facebook,LinkedIn等公司,都是以MLE为主要的机器学习岗位。所以如果之后想以机器学习为职业发展方向,那么MLE是一个机会更多的岗位。如果本身对于做Engineer并不感兴趣,例如微软或者Amazon的Applied Scientist以及很多金融企业或者传统企业,也提供了一些ML相关的工作机会。 大部分面向毕业生的Entry Level岗位往往重视的是员工的执行能力。而ML类的岗位往往还需要有比较好的领域理解(Domain Knowledge)和设计能力(ML Design),这些能力有时候并不是应届毕业生所具有的。这就意味着其实针对应届毕业生的ML类的岗位其实并不多。同时,很多各个学科的Phd也在考虑ML为自己的就业方向。这两个主要因素造成了ML方向的new grad岗位竞争往往是相对激烈的。但是ML这个方向的本身依然有着非常有很好的前景,在职跳槽后也有着很多的就业机会,如果你是一个对ML有热情的人,这一定是一个值得你去为之努力的方向。   最好,通过以上的分析,我们可以看出,CS, ML Track的毕业生,有着最好的就业前景。同学们在做职业规划的时候,也要尽早确定好自己是想在ML DS这个方向上深耕,还是同时兼顾Engineer的相关技能。

晒货图片

发布了晒货 7月前

没有实习经验的应届生如何找到一份数据分析类工作?

作为一个在FLAG的senior DS(数据科学家),首先我们要知道数据分析类工作的要求是什么,面试考什么,才能知道怎么准备,进而怎么拿到offer。 1、 数据分析类工作都有哪一些? 数据科学师(Data science) 数据分析师(Data Analyst) 产品分析师(Product Analyst) 数据工程师(Data Engineer)   工作的要求: 每一个职位它的要求都不同,数据科学对于统计的要求更高,侧重建统计和数学模型来量化商业问题;数据分析和产品分析更侧重数据的可视化,搭建一些好看易用的图表来汇总和展示关键性的业务数据和指标;而数据工程师主要侧重工程,旨在优化大数据存储、清理、存取等过程,侧重高效率的处理数据的能力。   2、面试考什么: 数据科学、数据分析和产品分析考察的主要都是三大类:统计知识、产品思维和数据处理的简单编程。数据科学对于统计知识考的更深、更看重,数据分析和产品分析对于产品思维要求更高。所以不管想要求职哪一类数据方向的工作,这三大部分的知识都是需要掌握的,只不过对于不同的的职位,复习或者准备时候分配的时间应该有所区别。 --数据科学 统计知识占40% 产品思维占40% 数据编程占20% --数据分析和产品分析 统计知识占20% 产品思维占60% 数据编程占20% --数据工程 统计知识占10% 产品思维占40% 数据编程占50% 3、怎么准备面试: 其实知道了面试考什么,准备的过程就很清晰了。需要的就是好的复习材料和坚持不懈的努力了。对于统计知识和编程能力来说,如果你距离毕业还有几年时间,那最好的途径是修读一些相关课程,打下扎实的基础。如果马上就要毕业了但是修读的课程并不够,那就要在最短的时间内掌握数据方向工作中常用的一些核心的、常用的知识点了,比如贝叶斯定理、线性回归、假设检验等。   对于应届生来说最最最难准备和复习的其实是产品思维,因为没有真正的踏入职场之前,书本里的知识更多的都是停留的公式上而对于实际应用场景里会遇到的各种问题根本无法预判,所以应届生在面试时被问到真实的产品情景时,往往答的缺乏条理、思路混乱。这一部分建议大家平时用身边科技产品的时候多问自己“为什么”并且尝试解答。比如说,为什么linkedin要推出people you may know?它是怎么推荐用户给你的?它的目的是什么?如果没有答案,那可以上网搜搜看或者和身边的朋友茶余饭后讨论一下,都能帮助你从不同的视角多了解这个产品进而慢慢培养起一种产品思维。当然为了应对高压的面试,产品思维题是有答题思路和框架的,欢迎关注篱笆老师找Dana聊一聊数据求职的问题。希望我积累的宝贵经验能够帮助更多国人找到数据方向的好工作!

晒货图片

发布了晒货 7月前

数据分析人员需要掌握sql到什么程度?

hello 大家好!我是篱笆老师 Dana,对于这个问题其实可以分为两个小问题: (1)面试中,SQL需要掌握到什么程度才能通过考核 (2)实际工作中,需要掌握到什么程度才能完成实际工作 我会根据这两个问题总结一下应该怎样提高自己的SQL水平来应对面试并且更好的满足工作需求。 01  面试所需的掌握程度 首先来说说面试。面试中的SQL在近几年一线大厂(谷歌、meta等)的数据职位的面试中考察的越来越简单,你没有看错,不是越来越刁钻而是越来越标准化、流程化。当然不同的公司考察的标准是不同的,面试之前多看看面经是最靠谱的方式,在这里分享的是一个整体的趋向。 而考察的内容主要有以下几类: 1、join 不同的表格求两列之间的差值,知道left,right,inner,outer join的区别 2、运用CASE根据已有的数据分类讨论产生新的列 3、timeseries求k-day rolling sum或者moving average 4、排序,以及三个不同排序函数的联系与区别 5、求metric A当B第一次满足某条件的时候 6、给定好几个表,求一个rate 7、求满足某条件的人而不是人次的数量 8、给一个每天记录数据的table,求day of week的aggregation。 SQL 在 2021年的数据方向面试中目前大部分只存在于phone interview(电话面试),在onsite interview (首轮面试)的时候都不考察了。 onsite interview考察的是R或者python,可以看出各大公司越来越看重求职者真正处理数据的能力而不仅仅是收集数据的能力。 这里说的大部分公司包括了谷歌、脸书(meta)、新兴的独角兽roblox、doordash等等。所以说掌握了以上的基本几类考点,可以说求职者不需要再在SQL上花太多的时间,而是更应该好好准备产品题和基础的概率题。 02 工作所需的掌握程度 其次我们说一下实际工作中SQL到底发挥着什么样的作用。SQL虽然在面试中的比重被削弱了,但在实际工作中可以说是天天都要用。 所以熟练掌握SQL的一些基本函数、高级函数以及如何提高运行效率都对于实际工作大有益处。 因为身处大数据时代,如果想要做数据方向的工作,高效的收集数据、抓取数据是进行数据分析的第一步,所以SQL是至关重要的。 但熟练应用SQL的本领大多是在工作中边学边进步的,而不是使劲看书得来的,所以大家不需要过于用力的准备与担忧,当你真正迈入职场之后,你会在工作中不断积累经验、不断进步的。 03 如何学习/准备? 最重要的部分来了! 我们来说一下如何复习SQL,如何准备这些常用的函数,以及如何通过练习来模拟实战。 我们可以利用一些已有的SQL题目练习,比如Leetcode和HackerRank是两个免费的、资源相对丰富的公开题库网站,里面有一些SQL的题目很适合大家在准备面试阶段拿来练手。在回答这些题目的过程中,可以复习或者说进一步学习一些有用的函数。 同时,建议大家根据以上总结的常考知识点进行查漏补缺,例如是否对以上提出的8个知识点都能马上写出答案呢? 本篇回答重先总结这么多啦!欢迎给我们后台留言私信,关于数据方向求职的任何问题都可以,希望对大家的求职路上能有小小帮助,提供一点点星光!

晒货图片

发布了晒货 7月前

微软机器学习工程师告诉你,深度学习中的维度灾难是什么回事?

维度灾难是机器学习中非常核心的一个概念,它对于不论是面试或者是理解机器学习中一些问题都是很重要的。 比如在《机器学习的本质是不是就是数据拟合?》这个问题里我们就提到,我们要更好得理解Yann Lecun教授说的“深度学习是在外推而不是插值”,就需要先理解维度灾难是什么。 维度灾难其实并不复杂,用最通俗的话来大致描述下,就是: 当数据真的很高维的时候(特征很多的时候),高维空间里的数据互相之间将有着相似的距离。也就是是没有谁和谁更近,谁和谁更远的概念了。 如果用正式一些的式子表示出来就是: N是数据大小,D是数据维度。 这个定理说的就是,对于确定大小的一个数据集。当数据的维度也就是D,趋于无限大的时候,数据之间的最大距离dmax,小于数据之间的最小的距离dmin的(1+epsilon)倍的概率,将趋于1.换句话说就是我们之前说的,数据之间距离都几乎一样近了。再换句话说,距离,这个概念在高维空间失效了。 大家可以想象,对于一些基于距离的模型,比如KNN或者Kmeans来说,如果数据过高,那么模型将因为维度灾难而有着非常非常糟糕的性能。 与维度灾难对应的,就是The blessing of large data。当数据的维度太大时,为了缓解维度灾难,除了降维的技术以外,把数据量提高也可以缓解。 毕竟就算数据"present as high dimensionality, they usually live in a low dimensional surface. Or in another word often data is not 'truly high dimensional'given large data"(以高维形式存在,也通常显示为低维。或者换句话说,由于数据量大,数据往往不是“真正的高维”)。

晒货图片

发布了晒货 7月前

深度学习的本质是什么?感兴趣人工智能的伙伴们来看看吧

深度学习是不是只是在拟合数据?它的成功来自于拟合数据的能力不断变强吗? 这些问题是极其重要的,这是理解当前机器学习或者深度学习成功的本质,是继续推动其发展的核心。 一、什么是机器学习 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能核心,是使计算机具有智能的根本途径。 深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。 二、深度学习为什么成功 对于深度学习为什么成功,其实是有大量的争论的。 01 拟合能力 一部分人认为,深度学习之所以成功,只是因为在高维空间有着优秀的curve ftting能力或者说拟合能力。而模型的输出,只是拟合函数的插值结果,或者interpolation结果。 对于这个观点,著名的人工智能三巨头之一Yann Lecun有着他自己的不一样的看法。他认为"in high dimension, there is no such thing as interpolatioIn high dimension, everything isextrapolation." 02 插值和外推 也就是说,他认为,在高维空间就不存在插值这样的东西,在高维空间-切都只有外推也就是extrapolation。插值和外推的区别就是,插值的话你的输入是在你给定值域范围内的,也就是你见过类似的。外推就是,你的输入是在值域之外的。 一个简单的比喻就是:比如你的训练数据集只有10厘米以内长的树叶,但是外推就是你的用来预测的输入呢,它的长度是比如说芭蕉叶它是远超10厘米的。 为什么在高维空间是没有插值呢?这个可以主要通过curse of dimensionality来大致理解,Yann在他的论文里也对此进行了详细解释,非常推荐对这个问题感兴趣的同学阅读这篇文章。 希望以上分享对你有所帮助!

晒货图片

发布了晒货 8月前

入门深度学习,怎样快速提升深度学习方向的coding能力

在刚进入机器学习这个领域的时候很多人都有一个困扰,每次面对长篇大论的PyTorch或者TensorFlow代码,总是觉得无从下“眼”,更别说理解别人的代码实现然后复现了。 那我们该如何提升自己深度学习代码能力呢? 01 确保自己两个基础能力 (1)OOD,即面向对象的编程设计的能力 大型的机器学习模型项目代码,往往是通过精细的类的设计来组织的。你的OOD基础,决定了你以后阅读,理解,以及自己写一个机器学习项目的能力的上限。在阅读一个机器学习项目的时候,除了模型本身的实现,整个项目的代码是怎么通过OOD组织的,也是需要你去注意,去学习的。 (2)Pytorch或者tensorflow的基础 入门一个工具并不是很困难。甚至你只要阅读半个小时官方Tutorial,你就能马上动手实现一个Feed forward Neural Network的项目。 这些入门知识并不是我这里指的基础。这里的基础指的是Pytorch这个框架的一些基础的概念,比如什么是AutoGrade, gradience是如何记录的,如何向后传导的,一个tensor包含哪些信息,什么是计算图什么是动态图机制等等。 你对PyTorch这些基础概念的理解有多深,是另一个决定你深度学习代码水平上线的东西。 02 多看多思考多亲自写 这是一个大部分人都知道但是并不一定能做到的事情。提升代码能力最快的方式一定不是看各种各样教材或者教程视频,而是自己亲自去读代码,亲自动手去动手写代码。 一开始的时候你会发现自己理解代码的速度很慢,很困难,这也是劝退最多人的一个阶段。很多人发现自己理解代码实在困难,就放弃了。 你首先需要意识到,自己开始学习时一定有这么一个困难时期,然后你要相信自己通过积累,通过坚持,一定能度过这个阶段。 开始的时候,我们可以从一些重要模型的开源实现看起。 刚开始,我们要看得仔细,也就是一行一行看,然后确保自己理解每一行在做什么。如果有不懂的话就百度Google搜索。 这个时候一定是每读五行就有一行不懂,一定不要放弃,就像学英语一样,最开始读英语文章的速度一定是很慢的,但是训练了一段时间后,你的速度就会越来越快。 接着你要亲自动手去复现这些项目。哪怕是看一行,抄一行,都可以。动手与不动手,对于代码水平提升来说,是非常重要的一个因素。 过了看一行抄一行的阶段,就可以看一段,理解一段,然后写一段。 然后就是看一个类的实习,然后再复现出一个类,知道自己能完整复现一个项目。 学习新知识的过程一定不能急于求成。相信只要大家坚持多看多想多写,一定能很好得扎实得提升自己的代码水平。 本篇由篱笆老师Lan导师分享,有任何建议或疑问 欢迎大家留言告诉我们~

晒货图片