Sumeet Lalla在数据科学和软件工程领域有着丰富的经验。他从数据科学家转变为软件工程师,并分享了他对这两个领域的深刻见解。以下是与Sumeet的对话摘要。
Sumeet目前在Natwest Group担任数据工程师,专注于自然语言处理(NLP)生成性AI应用案例,如摘要、命名实体识别和问答聊天机器人。在此之前,他在Cognizant担任数据科学家,专注于银行和金融领域的非结构化扫描文档。Sumeet还曾在西门子技术担任高级软件开发人员,参与工业自动化领域的内部应用门户开发。他还在德勤咨询担任商业技术分析师,作为UNIX和Python脚本开发者,自动化手动流程。Sumeet拥有莫斯科高等经济学院的数据科学硕士学位和塔帕尔大学计算机工程学士学位。他的专长包括C#/Python/Java/PHP/UNIX/SQL、AWS Sagemaker、AWS Textract、SpaCy、机器学习、自然语言处理、命名实体识别、计算机视觉、人工智能和神经网络。
Sumeet通过在印度理工学院(IIT Kharagpur)获得为期六个月的人工智能和机器学习基础认证开始了他的数据科学之旅,这为他提供了机器学习算法背后的基本数学概念,如线性代数、统计学、微积分和概率论。他在课程中发现这些主题非常吸引人,并决定深入学习。由于对机器学习背后的数学概念感兴趣,他选择了数据科学作为职业或进一步学习。
Sumeet希望了解处理基础设施和大规模数据扩展的过程,无论是机器学习应用还是任何软件。了解系统架构有助于在一定程度上解决其局限性。
作为数据科学家,Sumeet获得了实验、跳出思维框架和非传统问题解决方法的技能。此外,这些技能增强了他多任务处理和跨领域构建机器学习管道的能力。
由于Sumeet之前有软件工程经验,他在从数据科学家转变为软件工程师的过程中并没有遇到太多挑战,因为这两个领域是相辅相成的。
软件工程允许探索项目工作中的未知领域,并在优化代码库和使用的基础设施方面对提出挑战。在这个不断发展的领域中,总有更好的方法和改进的空间。
Sumeet曾参与一个非结构化文档分割项目,该项目使用计算机视觉和自然语言处理提取相关信息。他们从概念验证(PoCs)开始项目的基础工作,尝试了不同的技术,包括基于机器学习和非机器学习的技术。最终,他们选择了使用Mask RCNN的实例分割,并进一步增强了其生成JSON格式输出文件的能力,使其对解析器和阅读器友好。在项目的每个阶段,他们都进行了演示,收集了有用的反馈,并在此基础上进行了改进。面临的一些挑战包括非结构化文档的类型和质量。为了克服这些挑战,他们应用了一些图像处理技术。此外,通过引入AWS Lambda的多进程和并发概念,他们还克服了一些基础设施问题。
Cognizant拥有一个专门的分析和数据科学管道,并拥有从机器学习到深度学习的各种项目。公司拥有大量可重用的内部工具和解决方案,可以增强并将其应用于不同的项目用例。
在项目代码审查中,技术团队负责人建议重构代码库中的一个组件。为了实现这一点,没有正确设计和实施测试用例基础设施,并提出了改进建议。实施了这个建议,导致该项目组件收到的错误数量大幅减少。