Michael Völske,德国巴伐利亚州阿沙芬堡的开发人员
Michael is available for hire
Hire Michael

Michael Völske

Verified Expert  in Engineering

机器学习开发人员

Location
阿沙芬堡,巴伐利亚,德国
至今成员总数
2021年11月5日

迈克尔拥有计算机科学博士学位, 有十年解决复杂数据问题的经验, 并在SIGIR等顶级国际场所发表了十几篇文章, CIKM, 和acl——其中许多是基于网络规模的数据集. 他擅长计划, procuring, 并安装跨数百台服务器的本地数据处理基础设施, 磁盘的pb, 以及千万亿次的计算能力. Michael在现代机器学习方面拥有广泛的知识,并向数百名学生教授基础知识.

Portfolio

Bauhaus-Universitat魏玛
机器学习,技术写作,大学教学,LaTeX, Python 3, Git...
Bauhaus-Universitat魏玛
数据科学,数据工程,DevOps,技术写作,Python 3, Java...

Experience

Availability

Part-time

首选的环境

Linux, Emacs, Visual Studio Code (VS Code), Python 3, Spark, Pandas, Kubernetes, Scikit-learn, Git

最神奇的...

...我分析的数据集是来自一个主要搜索引擎的十亿项查询日志,它教会了我Apache Spark的强大功能,并产生了排名第一的出版物.

工作经验

在线教学助理讲师

2020 - PRESENT
柏林高等技术学院
  • 作为自由职业助理讲师,每学期为20多名学生开设一门关于计算机操作系统基础知识的在线课程.
  • 设计并管理数字电路实践实验, 汇编语言, 进程调度, 文件系统.
  • 创建和管理期中和期末考试.
技术:大学教学

博士后研究助理

2019 - PRESENT
Bauhaus-Universitat魏玛
  • 在三年多的时间里,在A-level国际和一些小型场地发表了7篇以上关于信息检索和数据挖掘的研究论文, 通常利用最先进的机器学习和数据处理技术.
  • 设计机器学习基础知识的教材,作为年度讲座的一部分,并每年为100多名学生领导一个相关的编程实验室.
  • 带领团队进行计划, procure, and install a state-of-the-art GPU computing cluster; designed and implemented the systems for authenticating dozens of researchers using this infrastructure across four institutions.
  • 支持和指导11名学生成功完成学士、硕士论文写作.
Technologies: 机器学习,技术写作,大学教学,LaTeX, Python 3, Git, SaltStack

研究助理

2013 - 2019
Bauhaus-Universitat魏玛
  • 撰写了十几篇关于信息检索的科学出版物, 自然语言处理, and data mining, 其中一半是在a级国际机构发表的. 用Python和Java实现了实验系统.
  • 教授机器学习基础的实验课程,并定期举办关于大数据处理架构的研讨会. 在机器学习和数据挖掘领域领导小型学生项目小组.
  • 计划并实施采购, installation, maintenance, 以及对计算基础设施的监控, 其中涉及200多个独立服务器.
  • 支持和指导11名学生顺利完成学士和硕士论文的撰写.
Technologies: 数据科学,数据工程,DevOps,技术写作,Python 3, Java, Hadoop, Kubernetes, Spark

讲座及实验课“机器学习导论”

关于机器学习基础知识的年度讲座是Bauhaus-Universität魏玛和Universität莱比锡课程的一部分.

我的职责包括亲自授课和在线授课, 设计课堂材料和实验练习, 并监督助教. 支持相关的编程实验室, 我推出了一个基于kubernetes的Jupyterhub部署,一次最多为100名学生提供服务. 我对神经网络和深度学习的教材进行了大幅度的扩充.

十亿查询日志的查询分类与日志分析

更好地了解网络用户如何提问,以及搜索引擎如何满足他们的信息需求, 我分析了来自一个主要商业搜索引擎的超过10亿个单独条目的查询日志. 由于涉及的数据量, 我利用了大数据技术, 包括部署在100节点Hadoop集群上的Apache Spark, 实施全面的数据清洗和分析管道. 使用用户标记的社区问答数据作为训练集, 我基于不同的特征集开发了查询分类模型——比如图和主题模型——并评估了它们的有效性和效率. 最终的出版物被CIKM 2015接受,并作为问题分类的各种下游研究的基础.

公理信息检索的研究与实现

http://webis.de/publications.html?q=author:volske+axiomatic
Axiomatic IR处理的是一个好的相关性评分函数应该满足的形式属性.

该研究项目研究了使检索公理直接可用的策略,以使现实世界的搜索引擎受益. CIKM 2016上发表的一项试点研究展示了检索公理如何直接修改结果排名,从而提高搜索结果质量. ICTIR 2021的后续工作展示了检索公理如何为任意排名生成解释, 使复杂的相关评分函数(如基于深度神经网络的函数)更具可解释性. 我实现的公理化重新排序管道还发表了几篇文章.

采购、安装和维护计算基础设施

我主要负责策划, procurement, installation, 并在五年多的时间里维护横跨近300台独立服务器的研究计算基础设施. To provision, maintain, 并监控这些系统, 我的团队利用了像SaltStack这样的基础设施即代码技术, 并在Gitlab的基础上开发了用户认证和访问控制的定制解决方案, Kubernetes, and Slurm. Altogether, 基础设施使我们的研究小组在高级场所成功发表了数百篇论文.

挖掘Reddit的抽象摘要地面真实数据

http://webis.de/data/webis-tldr-17.html
抽象摘要是用源文本中不一定存在的新颖单词和短语提炼出源文本的核心内容. 这比仅仅从来源中选择相关短语产生更短的摘要和更流畅的阅读体验. 学会自动抽象总结, 机器学习模型需要大量的源-摘要对作为训练数据.

我领导了一项工作,从Reddit平台上发布的社交媒体帖子中挖掘了400多万对人工撰写的来源摘要, 用户经常把长消息总结为对读者的礼貌, prefixing the summary with "TL;DR" ("too long; didn't read") or similar. 处理输入数据的规模(所有Reddit帖子直到2017年), 我利用了Hadoop和Spark等技术. 由此产生的Webis-TLDR-17数据集构成了INLG 2019上由来自行业和学术界的混合研究团队组织的抽象摘要共享任务竞赛的基础. 我们的数据集随后被纳入Huggingface和TensorFlow数据集库,到目前为止已被40多篇出版物引用.

Languages

Python 3, Python, Java, C, Ada, JavaScript, Scala, SQL

Paradigms

数据科学,DevOps

Other

机器学习, 信息检索, 工程数据, 大学教学, 技术写作, IT基础设施, GPU Computing, Programming, Data Mining, 网络技术, Statistics, Linear Algebra, Optimization, Data Analysis, 云架构, 自然语言处理(NLP), 数据可视化, Text Mining, Big Data, 正则表达式, GPT, 生成预训练变压器(GPT)

Frameworks

Spark, Hadoop

Libraries/APIs

Pandas, Scikit-learn, PyTorch

Tools

Git, LaTeX, SaltStack, Emacs, Jupyter, GitLab

Platforms

Linux, Kubernetes, Docker, Visual Studio Code (VS Code), Jupyter Notebook

Storage

JSON, Ceph, PostgreSQL, On-premise

2013 - 2019

计算机科学博士

Bauhaus-Universität魏玛-魏玛,德国

2010 - 2013

计算机科学硕士学位

Bauhaus-Universität魏玛-魏玛,德国

有效的合作

如何使用Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

分享你的需求

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

选择你的才能

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

开始你的无风险人才试验

与你选择的人才一起工作,试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring