赛博空间7号

The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.--Stephen William Hawking

数据科学写作的实用建议

原文链接:https://towardsdatascience.com/practical-advice-for-data-science-writing-cc842795ed52


写作是每个人都想提高的技能,但是我们通常发现写作很难入门。我们知道写作关于数据科学项目的内容能够提高我们的交流能力,开阔视野,让我们成为更好的数据科学家。但是我们通常会觉得我们的写作不够好或者我们没有相关的教育或背景。


我过去一年也在努力解决这些问题,并且提出了一些克服这些障碍的建议以及关于数据科学写作的一般性原则。虽然写作并没有秘诀,但是有一些使用的技巧让你更容易建立建立一个更有效率的写作习惯:

    1.致力于90%:你完成的不完美的项目比你完成不了的完美项目更好。

    2.持续写作:你写的越多,写作就越简单。

    3.不要担心你的资格:在数据科学领域没有阻止你贡献的障碍。

    4.最好的工具就是能帮你完成任务的工具:不要过度优化你的写作软件,博客平台或者其他工具。

    5.广泛而深入的阅读:借鉴,混合,在其他人的想法上改进和提高。

在这篇文章中,我们将简要介绍这些内容,并介绍我完成的提升写作的技巧的方法。经过很多文章的教训,我产生了很多错误。不再犯这些与我相同的错误,你就可以从我的经验中学到很多。


完美被高估:致力于90%

我必须克服的最大的心理障碍以及我常常听到的其他人都在努力解决的问题是“我的写作/数据科学技能不够好。这可能是致命的:当考虑一个项目时,人们会认为既然我不能做到完美,甚至它们都没有开始。换句话说,他们让完美成为了好的敌人。

这里的谬论是:只有一个完美无暇的项目才值得分享。实际上,完成的粗糙的项目远比完全无法完成的项目好的多。

虽然在某些领域可以预期完美无瑕的表现 - 你希望你的汽车制动器每次都能工作 - 博客写作不是这些领域之一。 想想您上次阅读数据科学文章的时间。 我猜(特别是如果你读了我的一篇文章)它至少有一些错误。 但是,你可能还是完成了这篇文章,因为重要的是内容的价值。 只要文章内容引人注目,我们愿意忽略一些错误。

当我写作时,我的目标是使我的文章可读并进行多次编辑,但我已经停止要求他们完全没有错误。 在实践中,我的目标是90%,任何高于此的奖励。 推出一篇有一些错误的文章比完全没有任何错误要好(如果你关心语法/风格,我推荐免费工具Grammarly )。

这种态度不仅仅是写入数据科学项目本身。 总会有另一种方法可以尝试或进行另一轮模型调整。 在某一时刻, 这项工作回报将少于投入的时间 知道何时停止优化是一项重要技能。 不要让这成为半完成项目的借口,但不要强调试图达到不可能的100%。 如果你犯了一些错误,那么你就有机会通过提出你的工作来获得反馈。

愿意做出不完美的工作,积极回应建设性的批评,这样你下次就不会犯同样的错误。


一件事只做一次你不会变得更好:一致性计数

虽然一万小时规则已经被揭穿(你对一件事投入的专注与你做这件事的次数一样重要),但是有些事重复做就是会积累一些经验。写作并不需要特殊的能力,而是一个需要重复掌握的过程。

写作可能并不简单,但在练习时确实更容易。 此外,写作是一个积极的反馈循环:随着你继续写作,它变得更容易,你的写作变得更好,导致你想要写更多。

我写作的一个重要障碍是入门,我喜欢将其视为激活能量 。 当你更频繁地写作时,降低了开始的障碍,减少了开始写作所需的摩擦力。 一旦你开始,你通常会经过最难的部分。

如果你一贯地写作,你可以改变你的思维方式,“现在我将不得不花时间从这个其他活动写到”到“现在我已经完成了项目,是时候像往常一样写下它了。” 即使撰写失败的项目也很有价值 关于每个项目的写作强化了这样的概念:写作不是一项额外的苦差事,而是数据科学管道的关键部分。

写作通常不仅仅意味着分享文章。 当您正在进行分析时,请尝试向Jupyter笔记本添加更多解释您的思考过程的文本单元格。 这就是我最初开始写博客的方式:我开始彻底注释我的笔记本,并意识到获得一篇文章只是一点点工作。 此外,当您开始为您的代码添加解释时,您未来的自我和同事看着您的工作将会感谢您。

写我的前几篇文章确实感觉像是一件苦差事,但是当我习惯于这不是一次性的事情时,它变得容易得多,直到我达到了它是我公认的一部分流程。 习惯是非常强大的写作可以像任何其他习惯一样获得


头衔在数据科学中没有意义:不要担心你的(学历)证书

数据科学文章是根据作品的质量而不是作者的证书来判断的。 在互联网上 - 为了更好,偶尔更糟糕 - 出版没有障碍。 不需要任意证书,没有象牙塔可以爬,没有考试通过,没有看门人阻止你学习和写任何数据科学。 虽然大学学位是有用的(我拥有机械工程学位,尽管从未使用它,但不会后悔),当然没有必要为数据科学做出贡献。在数据科学中,您获得新知识的能力比您的教育背景更重要。保持开放的态度也很重要:当我不完全确定我使用正确的方法时,我试着在我的文章中承认,我总是欢迎任何更正。 没有标准的方法来进行数据科学,但你仍然可以从其他有经验解决类似问题的人那里学到很多东西。


最好的工具就是能完成任务的工具

Windows vs MacOS。 R vs Python Sublime vs Atom vs PyCharm。 中等与您自己的博客。 这些论点都是非生产性的。 正确的反应是使用任何工具让您解决问题(在您的环境范围内)。 此外, 具有更多选项工具并不总是更好的。

更多的自定义选项意味着有更多的时间来定制这些选项,你应该花费更多的时间来完成您应该做的事情 - 写作或编码。


从哪里得到新想法:广泛而深入地阅读

伟大的想法不会独立出现 ,与所有其他想法隔离开来。 相反,它们是通过将旧概念应用于新问题, 混合两个现有想法或改进经过验证的设计而创建的。 弄清楚要写什么的最好方法是阅读其他数据科学家正在撰写的内容 当我遇到问题或需要一些新的写作思路时,我不可避免地开始阅读。

此外,如果你对自己的写作风格没有信心,首先要模仿你最喜欢的作家。 查看他们文章的结构,以及他们如何处理问题并尝试将相同的框架应用于您的项目和文章。 每个人都必须从某个地方开始,在建立其他技术的基础上不会感到羞耻。 最终你会发展自己的写作风格,然后其他人可以适应,等等。

通过广泛阅读,我们探索了数据科学的许多不同领域,通过深入阅读,我们发展了对特定专业领域的理解。 您可以通过练习您已有的技能 - 利用 - 并经常学习新技能 - 探索,将其应用于您的写作和数据科学。

我选择项目的最后建议是从小做起。 项目只会随着你的工作而增长,无论你分配给项目多少时间,都需要更长时间( Hofstadter规则 )。 承担一个完整的机器学习项目可能很诱人,但如果您仍在尝试学习Python,那么您可能希望一次解决一个问题。 话虽这么说,如果你有足够的信心承担整个项目,那就去吧! 没有比练习更有效的学习方法,特别是将所有部分放在一个问题中。

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

© 版权所有:沈阳市和平区赛博空间咨询部|辽ICP备18005891号
Powered by Z-BlogPHP & Yiwuku.com