parallellabs.com
域名年龄: 15年8个月20天HTTP/1.1 200 OK 访问时间:2014年09月10日 21:53:31 语言环境:PHP/5.3.29 X-Pingback: http://www.parallellabs.com/xmlrpc.php 类型:text/html; charset=UTF-8 Content-Encoding: gzip 动作:Accept-Encoding, Cookie 文件大小:33461 网站编码:UTF-8
Parallel LabsA lifelong learner with a natural curiosity to figure out how the world works. Don't worry dude, just hacking!菜单跳至内容AboutBlogResearchMessageQuote搜索:一步一步教你怎样给Apache Spark贡献代码置顶08/05/2014未分类Guancheng本文将教大家怎样用10个步骤完成给Apache Spark贡献代码这个任务:)到 Apache Spark 的github 页面内点击 fork 按钮你的github帐户中会出现 spark 这个项目本地电脑上, 使用git clone [你的 spark repository 的 github 地址]例如:git clone git@github.com:gchen/spark.git本地得到一个叫 spark 的文件夹4. 进入该文件夹,使用git remote add upstream https://github.com/apache/spark.git添加 Apache/spark 的远程地址5. 使用git pull upstream master 得到目前的 Apache/spark 的最新代码,现在我们在 你自己fork的Spark代码仓库的master 这个分支上,以后这个分支就留作跟踪 upstream 的远程代码6. 好了,现在你可以开始贡献自己的代码了。按照开发惯例,我们一般不在自己代码仓库的master上提交新的代码,而是需要为每一个新增的功能或者bugfix新增一个新的branch。使用:git checkout -b my_change创建新的分支,现在我们可以在这个分支上更改代码7. 添加代码,并提交代码:* git add .* git commit -m “message need to be added here”8. 提交Pull Request前合并冲突在我们提交完我们的代码更新之后,一个常见的问题是远程的upstream(即apache/spark)已经有了新的更新,从而会导致我们提交Pull Request时会导致conflict。为此我们可以在提交自己这段代码前手动先把远程其他开发者的commit与我们的commit合并。使用:git checkout master切换到我们自己的主分支,使用git pull upstream master 拉出apache spark的最新的代码。切换回 my_change 分支,使用git checkout my_changegit rebase master然后把自己在my_change分支中的代码更新到在自己github代码仓库的my_change分支中去:git push origin my_change 将代码提交到自己的仓库。9. 提交Pull Request这时候可以在自己的仓库页面跳转到自己的my_change分支,然后点击 new pull request。按照Spark的风格规定,我们需要在新的Pull Request的标题最前面加上JIRA代号。所以我们需要在https://issues.apache.org/jira/上创建一个新的JIRA,例如https://issues.apache.org/jira/browse/SPARK-2859。然后把SPARK-2859这个代号加到你的Pull Request的标题里面。例如:https://github.com/apache/spark/pull/1782Pull Rquest的描述的写法很重要。有几个要点:(1)在Pull Request的描述中,一定记得加上你提交的JIRA的url,方便JIRA系统自动把Pull Request的链接加进去,例如https://issues.apache.org/jira/browse/SPARK-2859。(2)PR的描述要言简意赅,讲清楚你要解决的问题是什么,你怎么解决的。大家可以多参考其他committer提交的PR。10. 等待Spark committer审核你的PR。如果需要进一步的代码修改,你可以继续在本地的my_change分支下commit新的代码,所有新的代码会在”git push origin my_change”之后自动被加入你之前提交的Pull Request中,方便进行问题的跟踪和讨论。11. 如果一切顺利,具有apache/spark.git 写权限的commiter就会把你的代码merge到apache/spark.git的master里面去了!恭喜你!相信你一定很开心吧?Happy contributing to Spark!ps. 你的代码被merge完之后,就可以把my_change这个分支给删掉了:)注:本文写的比较仓促,是在@lufeihaidao的基础上直接修改而成,特此感谢:https://github.com/19wu/19wu/issues/41参考:How to use github pull request: https://help.github.com/articles/using-pull-requestsgithub的多人协作: https://gist.github.com/suziewong/4378619How to rebase a pull request:https://github.com/edx/edx-platform/wiki/How-to-Rebase-a-Pull-Request我提交的一个JIRA例子:https://issues.apache.org/jira/browse/SPARK-2859我提交的一个Spark PR的例子:https://github.com/apache/spark/pull/1782发表回复大数据的价值密度置顶05/03/2014业界评论、大数据Big DataGuancheng文 / 陈冠诚注:原文刊载于《程序员》2014年第5期,略有删改。在大数据和云计算如火如荼的今天,怎样将数据的商业价值变现成为各位老板和技术男们最关心的问题。马云经常讲,我不懂技术,所以我才要发力做云计算,做大数据。相信马总一定因为看到了云计算和大数据的潜在商业价值才做出上述决定的。在各位大佬争相跑马圈地的年代,各大公司都开始占领数据源头,从构建自己线上应用的生态圈入手,将用户的数据牢牢掌握在自己手中,以期望将来能从这些数据中挖掘出“潜在”的商业价值,例如在2014年风生水起的互联网金融行业就是其中典型。请注意,笔者这里专门对大数据的商业价值加上了“潜在”这两字。为什么需要这么关注这个字?其实这跟你的投资回报率非常有关系。例如,大家都知道如果你能把新浪微博上的数据都扒拉下来,必然对很多生意都非常有帮助,例如各大电商网站,各大招聘网站等等。但是,你必须考虑清楚构建一个能存储和分析新浪微博数据的大数据平台的成本有多高,而你基于这些数据构建
© 2010 - 2020 网站综合信息查询 同IP网站查询 相关类似网站查询 网站备案查询网站地图 最新查询 最近更新 优秀网站 热门网站 全部网站 同IP查询 备案查询
2025-06-07 20:41, Process in 0.0089 second.