开源数据科学项目精选

在数据科学领域,面试中常见的一个问题是:“完成了多少数据科学项目?”这个问题对于新手或相对新入行的人来说尤为重要。仅仅完成课程或获得认证是不够的,如果简历中没有结合实践经验,这些认证的价值就会大打折扣。因此,参与开源数据科学项目就显得尤为重要。这些项目能够展示好奇心、热情和对数据科学领域的热情。相信,将数据科学项目添加到简历中,将大大增加被录用的机会。

如何选择数据科学项目

提升简历和申请的开源数据科学项目

正如常驻数据科学家Prateek Joshi所说:“DETR模型非常简单,不需要安装任何库就可以使用它。DETR将目标检测问题视为一个直接的集合预测问题,借助基于transformers的编码器-解码器架构来实现。”

这是另一个引人入胜的开源计算机视觉项目。顾名思义,这个项目让可以使用OpenCV实时进行图像动画。从项目的GitHub仓库中拿了一个例子:模型模仿镜头前人物的表情,并相应地改变图像。这是计算机视觉的绝妙应用,肯定会在内部尝试这个项目。这类项目在行业中将有大量的应用,从时尚和零售到市场营销和广告。

如果对自行实现这个项目感兴趣,需要知道PyTorch的工作原理。请继续阅读,以初步了解。顺便说一下,这将为数据科学简历增色不少,并给面试官留下深刻印象。

原始开发者非常慷慨地开源了代码和。去尽情实验吧,这是最好的学习方式!

OpenAI再次做到了!继去年发布GPT-2并在媒体上引起轰动之后,他们开源了他们最新的自然语言处理(NLP)框架——GPT-3!简单地说,GPT-3是同类中最大的NLP模型。它有1750亿个参数(是的,没看错),在规模上是巨大的,几乎350GB。GPT-3几乎是历史上最昂贵的模型之一(训练大约花费了1200万美元)。

众所周知,语言模型需要大量的数据来训练人类几秒钟就能掌握的任务。GPT-3站出来了。在中,OpenAI展示了如何通过扩大语言模型来极大地提高任务不可知和少样本性能。

现在,这部分可能会让许多数据科学伦理人士担忧——GPT-3可以轻松生成人类难以识别为假新闻的新闻文章样本。在当今互联互通的世界中,这可能是潜在的灾难。公平地说,OpenAI在他们的论文中已经解决了这个问题。

这个开源数据科学项目是个人最爱。由Xander Steenbrugge创建并发布,他是前两届的知名演讲者,这个Python库使能够进行实时音频分析。

正如Xander在他的GitHub仓库中所说,这是一个:“一个简单的包,用于在原生Python中进行实时音频分析,使用PyAudio和Numpy从实时音频流中提取和可视化FFT特征。”FFT代表快速傅里叶变换。这是数据科学技能集中的一个出色工具,因为它可以解锁可以处理的广泛问题。鼓励。

如果以前没有处理过音频数据,请浏览以下文章,了解所有关于它的信息:10个音频处理任务,让开始使用深度学习应用(含案例研究)

是否曾经遇到过包含文本的图像或截图,但无法提取其中的文本?知道有一些工具可以为此目的,但宁愿不在机器上安装任何额外的软件!

现在,可以使用这个Python工具来抓取截图并从中提取文本,它被称为TextShot(好名字),这是一个快速收集所需的任何文本数据的优秀工具。以下是TextShot如何工作的演示:

# TextShot的示例代码 # 请确保已经安装了Google的Tesseract # 可以查看以下教程,了解更多关于Tesseract的信息: # 构建自己的光学字符识别(OCR)系统,使用Google的Tesseract和OpenCV

TextShot需要在机器上安装Google的Tesseract。可以查看以下教程,了解更多关于Tesseract的工作原理:

喜欢dair.ai的这个开源仓库。许多新手(甚至有经验的人)经常在技术和科学沟通上挣扎。处理科学沟通有很多细节,很多人都错过了。

ML Visuals是一个开源合作项目,旨在帮助数据科学社区理解和提高技术沟通。这个出色的仓库提供了许多视觉、模板和图表,帮助构建完美的演示文稿或研究论文。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485