Dev is available for hire

Dev Sharma

Verified Expert in Engineering

数据科学家和人工智能开发者

Location

纽约，纽约，美国

Toptal Member Since

November 25, 2020

Dev是一名多才多艺的数据科学家和开发人员，专门从事构建异常准确的预测AI模型. 他专注于使用统计数据, deep learning, 以及数据工程，以制定战略并优化数据在组织中的作用. Dev的专业知识和实践经验得到了纽约哥伦比亚大学应用分析硕士学位的支持, 他还在研究生阶段教授数据科学的几乎所有方面.

Portfolio

Columbia University

自然语言处理(NLP)...

Insight Data Science

亚马逊网络服务(AWS)， Python, PyTorch, Scikit-learn, Word Embedding...

Dotin

LSTM, Python, PyTorch，分类，神经网络，模型调优...

Experience

SQL - 6 years Pandas - 3 years Python - 3 years PyTorch - 2 years Deep Learning - 2 years 亚马逊网络服务(AWS) - 1年 JavaScript - 1 year

Availability

Part-time

Preferred Environment

Teams, Linux, PyCharm, Visual Studio Code (VS Code)， Slack App, Jupyter Notebook, Slack, MacOS

The most amazing...

...我很自豪地把自己的名字写在这个项目上，那就是与印孚瑟斯和斯坦福实验室合作，登上自然语言理解模型的全球排行榜.

Work Experience

Instructor

2020 - PRESENT

Columbia University

指导研究生编程, statistics, databases, front-end development, 商业智能工具, hypothesis testing, machine learning, 以及其他分析能力.
领导并建立了一种协作文化，在这种文化中，我们四人教学人员的每个成员都完全致力于每个学生的成功.
持续取得较高的学生满意度得分(4分).5+/5).

Technologies: 自然语言处理(NLP), 生成预训练变压器(GPT), Python, Deep Learning, Machine Learning

人工智能研究员

2020 - 2020

Insight Data Science

建立了一个使用ALBERT的教科书智能搜索产品, 一个轻量级的深度学习模型, 将学生的搜索查询转换为结果，比传统的目录方法快100倍. I was the sole developer.
通过构建一个容器化的web应用程序(textbookqa)来服务于模型和信息检索器.com) in Docker and AWS.
在四周的期限内交付MVP，并向利益相关者展示产品.

Technologies: 亚马逊网络服务(AWS)， Python, PyTorch, Scikit-learn, Word Embedding, Neural Networks, Learning to Rank, 生成预训练变压器(GPT), 自然语言处理(NLP), GPT, Deep Learning, Model Tuning, Machine Learning, Models

数据科学家(Capstone)

2019 - 2020

Dotin

通过建立一个基于长短期记忆(LSTM)的架构，利用调查对象的鼠标移动来帮助识别和收回不公平的调查成本，预测付费调查的有效性，准确率约为76%.
完成了我们团队关于验证调查回复的研究的同行评审出版物(arxiv).org/abs/2006.14054). 调查验证产品的商业化正在进行中.
在一个8人的团队中使用敏捷框架工作.

Technologies: LSTM, Python, PyTorch，分类，神经网络，模型调优, Machine Learning, Models, Consulting, Data Science

Machine Learning Intern

2019 - 2019

Infosys

将最先进的NLP模型(RoBERTa)与斯坦福大学的切片功能集成在一起，在斯坦福大学的SuperGLUE上取得了最佳结果, 用于评估一般自然语言理解模型的领先NLP基准.
在一年一度的InStep黑客马拉松中，在32支队伍中获得亚军, 通过实施创新的教育内容顺序推荐系统，个性化用户的学习之旅.
通过实现神经网络架构(PyTorch)，以95%的准确率和90%的召回率检测欺诈性医疗保健提供者, 比公司现有的基于规则的分类器高出约46%.

技术:变形金刚, Python, 自然语言工具包(NLTK), PyTorch, Word Embedding, Classification, Neural Networks, 自然语言生成(NLG), 自然语言处理(NLP), 生成预训练变压器(GPT), GPT, Deep Learning, Models, Machine Learning

Data Science Intern

2018 - 2019

Byteflow Dynamics

建立机器学习模型，使用新闻和时间序列数据对未来股票价格表现进行分类，准确率为61%.
开发了一个Python爬虫来提取大约5,每周500篇财经新闻，面向100位股民.
通过使用Regex和基于规则的金融词汇清理原始数据，对股票进行情绪分析.

技术:自然语言工具包(NLTK), PyTorch, Neural Networks, Consulting, Data Science, Python, Models, Machine Learning

联合创始人|副总裁

2016 - 2018

Ummid A Hope Foundation

Raised $75,为乌代普尔被遗弃的女孩提供超过5000美元的福利, India, 帮助建立核心团队和1人的全球网络,000+ donors.
协调团队会议和团队技术栈，以促进组织的全球拓展.
组织了几次当地的筹款活动，以留住现有的捐助者并吸引新的捐助者.

技术:非营利组织，商业管理

Business Analyst

2014 - 2018

Zodiac21 Solutions

使用SQL管理数据集, Excel, 和Tableau来跟踪kpi, present dashboards, 并发现可操作的见解.
通过领导跨职能团队，将平均客户保留率从35%提高到64%, 由五人组成的团队开发网页和信息亭应用程序，以实现客户对员工的即时反馈.
实施和培训50多名员工使用最新的自动化工具来实现数字报告, 基于云的时间跟踪, and task management.

技术:Tableau, SQL

Experience

AskAi

http://github.com/devkosal/askai

一个完整的问题回答应用程序，从教科书中提取答案. 现代信息检索技术成功地从较小的文档中检索信息. 然而，当涉及到更大的文档时，当前的选项就不够用了.

这个存储库试图解决在大型文档上执行问答的问题. 这需要两部分的方法. 在一部分中，ALBERT在斯坦福问答数据集(SQuAD) QA数据集上进行训练. 在另一种方法中，我们使用基于规则的方法将教科书分成多个部分. 然后，我们可以将用户问题嵌入与部分嵌入进行比较，以找到最相关的部分。.

我是唯一的贡献者——从产品概念化到部署——并且存储库目前处于MVP状态.

RoBERTa with Fast.ai

http://medium.com/analytics-vidhya/using-roberta-with-fastai-for-nlp-7ed3fed21f6c

快速实现当前最先进的NLP模型.ai. 迁移学习的概念对NLP来说仍然是一个新的概念，并且正在以非常快的速度发展. 像RoBERTa这样的模型在SuperGLUE基准测试中在几个不同的NLP任务中表现得非常好. 这个项目方便了RoBERTa的快速使用.ai.

我是唯一的开发人员—从概念化到完成交叉集成—并且集成模型可供使用.

用鼠标移动进行调查验证

http://github.com/dachosen1/Dotin-Columbia-Capstone-Team-Alpha-

30%的用户错误地填写了心理测量问卷. 这对于那些期望有效的调查结果来支付调查费用的组织来说是一个问题. 该项目创建多个模型，以找到优于当前验证方法的方法. 最终的目标是将调查成本降低至少30%.

这个项目是由一个八人小组完成的. 我负责为我们的LSTM方法构建完整的管道, 准确率为80%，F1得分为 .76 on the validation set. 最终交付物是模型权重，可以在本地用于测试预测. 这个项目的未来目标是为LSTM模型创建一个API, 可以发送哪些请求来识别错误的调查回复.

Fight Detection

http://github.com/devkosal/fight_detection

一种深度学习计算机视觉模型，用于检测视频中的打斗. 通过使用5到10帧从一个2秒的帧样本, 我们使用残差神经网络(ResNet)模型提取特征，然后将提取的特征传递给LSTM(从零开始训练)来分类视频中是否发生了打斗. 我的模型能够在平衡数据集上以90%以上的准确率预测战斗是否发生. 监控录像的准确率是71%.

我是唯一的贡献者. 核心开发阶段已经完成，下一步是部署.

Text Generator Web App

一个文本生成器web应用程序，用不到50行Python构建，使用PyTorch. 在PyTorch中，我们使用transformer库导入预训练的OpenGPT-2模型. 其次，PyViz Panel库用于完全创建web应用程序，仅使用Python.

我是这个应用程序的唯一贡献者. 它是完整的，旨在教育其他人构建完整的文本生成应用程序.

Skills

Languages

Python, JavaScript, R, Visual Basic for Applications (VBA)， SQL, HTML

Frameworks

Selenium

Libraries/APIs

PyTorch, Pandas, Matplotlib, SQLAlchemy, Beautiful Soup, Node.. js、React、Scikit-learn、自然语言工具包(NLTK)、LSTM、Fast.ai

Tools

NGINX, Tableau

Platforms

谷歌云平台(GCP)、Docker、亚马逊网络服务(AWS)

Other

Regular Expressions, Gunicorn, Version Control, Neural Networks, Transformers, BERT, 递归神经网络(rnn), 卷积神经网络(CNN), Regression, Clustering, SVMs, Models, Model Tuning, Deep Learning, 自然语言处理(NLP), Learning to Rank, Classification, Word Embedding, 自然语言生成(NLG), Computer Vision, Computer Science, Business Management, Nonprofits, Teams, Consulting, Machine Learning, GPT, 生成预训练变压器(GPT)

Paradigms

商业智能(BI)，数据科学

Education

2018 - 2020

应用分析硕士学位

哥伦比亚大学-美国纽约

2009 - 2013

工商管理学士学位

孟菲斯大学-孟菲斯，田纳西州，美国

Certifications

SEPTEMBER 2020 - PRESENT

SQL能力倾向测试(http://app.testdome.com/cert/6a938ba738ac4fd587aa1808cc2de863)

TestDome

SEPTEMBER 2020 - PRESENT

Python能力倾向测试(http://app).testdome.com/cert/98109584b10e44f68312e8114cdad0fd)

TestDome

AUGUST 2018 - PRESENT

计算机科学与Python编程导论

麻省理工学院| via edX

Collaboration That Works

How to Work with Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring