计算机视觉技术专题

地点:北京富力万丽酒店 · 首府宴会厅 2
时间:2019年9月7日 9:00—16:50

「论坛简介」

计算机视觉技术领域的创新已达瓶颈?该领域有哪些方向将取得突破,还有哪些前景应用尚待挖掘?本论坛将聚焦于计算机视觉技术最新突破和应用实践,并就当下遇到的技术挑战探索出可能的解决方案。

出品人: 王华彦 | 快手硅谷实验室负责人

王华彦,快手硅谷实验室负责人,斯坦福大学计算机科学博士,师从Daphne Koller教授研究计算机视觉。曾就读于斯坦福大学人工智能实验室,为复杂化的概率图模型开发了高效的推理算法,并将其应用于计算机视觉研究。王博士的研究曾登上行业期刊CACM首页,并在多个顶级会议如CVPR、ICML、ECCV、IJCV、AAAI上发表。 王华彦本科和硕士阶段就读于北京大学,师从査红彬教授,也曾参与香港科技大学的杨强教授的科研活动。加入快手前,他曾担任Vicarious AI的高级研究员,以极其高效的数据方式,开发高度结构化的模型,解决CAPTCHA和Robotics等现实问题。他在人工智能领域的工作曾发表于美国的《科学》杂志。王博士现在领导快手位于硅谷的Y-tech实验室,在开发高效的人工智能解决方案的同时,也将更多的尖端技术引入快手的移动平台。

论坛日程

09:00-09:45 

王华彦 | 快手硅谷实验室负责人

端上视觉技术的极致效率及其短视频应用实践

即将公布

09:45-10:30 

文石磊 | 百度视觉技术部主任架构师,视频基础技术团队负责人

互联网视频基础技术探索及其应用

目前互联网视频数据日益增多,用户观看长视频、短视频、小视频的时长也迅速增长,在实际应用中需要解决两类重要问题,视频语义理解和视频编辑。视频语义理解从多维度解析视频内容,理解视频语义,自动分类打标签,极大节省人工审核效率,节约成本,同时实现精准用户推荐,提升体验效果。其主要技术难点在基于海量数据构建高性能视频分类模型。视频编辑主要解决手机端美颜、滤镜、属性编辑、AR特效、超分辨率等问题。随着GAN的快速发展,基于GAN的特效编辑几乎达到以假乱真的地步,逐渐成为视频编辑中研究的热点。 本次演讲将围绕高性能大规模视频分类技术与生成式对抗网络技术(GAN),主要介绍百度视觉技术部在视频语义理解和视频编辑两个问题上的探索与应用成果。

10:30-11:15 

石建萍 | 商汤科技研究总监

视觉感知驱动的量产自动驾驶

计算视觉及其在图像视频中的识别理解能力在近些年的突飞猛进,极大提升了量产自动驾驶对于低成本高感知能力方案的可靠度。在本报告中,我们会综述团队在计算视觉领悟的整体布局及重点突破。接下来会以优化自动驾驶系统能力,提升量产可靠性为整体目标,介绍系统级的优化实践。最后,我们将展望自动驾驶方向未来的研究热点以及商汤在自动驾驶方面的整体布局。

13:30-14:15 

王乃岩 | 图森未来合伙人&首席科学家

图森未来无人驾驶技术实践分享

【演讲大纲】1、 图森未来无人驾驶的发展历程,以及最新的技术进展;2、 计算机视觉技术在无人驾驶卡车领域中的实践和应用

14:15-15:00 

张祥雨 | 旷视研究院主任研究员、基础模型组负责人

高效轻量级深度模型的研究与实践

深度基础模型在现代深度视觉系统中居于核心地位。在实际应用中,受应用场景、目标任务、硬件平台等的不同,经常会对模型的执行速度、存储大小、运算功耗等进行限制。因此,如何针对各种不同的情景设计“又好又快”的模型,成为深度学习系统实用化的重要课题。尤其是近年来,AutoML技术的发展给轻量级模型的研发带来了新的思路,基于AutoML/NAS技术的深度视觉模型在多个维度上不断刷新性能上限,展现出了良好的研究与应用前景。 本次演讲主要围绕实用模型设计的两个常用技术:轻量级模型设计和模型裁剪,重点介绍旷视研究院在高效视觉模型领域的科研成果和实践经验。分享内容包括多种轻量级高性能模型,以及基于AutoML的自动化模型设计、模型裁剪的最新研究成果。

15:20-16:05 

王晶 |华为云OCR人工智能高级算法工程师

文字识别服务的技术实践、底层框架及应用场景

近年来,随着智能设备的普及和大数据技术的高速发展,自动化办公和智能数据分析成为可能并逐渐普及,人们要求计算机“读懂并理解文字”。本活动将会以介绍华为云文字识别服务的识别精度高、鲁棒性好、支持多类单据识别、服务稳定高效等特点,以及实现这些特点所应用的技术内容及框架、实践的过程与经验。初次之外,还会介绍一体化模型、任意角度纠正技术、端云结合等特色技术的实现方式及底层架构。 除了技术内容、架构设计的介绍,还会用一部分篇幅介绍目前已经成熟的应用场景,例如全球快递物流、财务、医疗、保险、金融、政务、交通、汽车等具有跨系统信息整合需求的业务领域,以帮助听众更好地了解这一领域的技术与实践的结合,通过华为的项目经历,分享这一技术在实践过程中的真实经验、踩过的坑和解决方案等。

16:05-16:50 

杨民光 | Product manager in Google Research Perception Research

On-Device, Real-Time multi-modal (video, audio) applications with MediaPipe

Video, audio (multimodal) mobile applications that utilize machine learning models (eg Tiktok 抖音, Shazam) are becoming more common. However, creating these multimodal ML applications are challenging as developers need to deal with real time synchronization of time series data during model inference and doing it cross platform (Android & iOS) on mobile and edge devices.

扫码回复:大会,加入大会福利群

x