北京朝阳悠唐皇冠假日酒店
10.24 -10.25
Visionular Inc 联合创始人兼首席科学家
Zoe Liu(刘宇新)是 Visionular (微帧科技)的联合创始人、董事长兼首席科学家。Visionular 是一家创立不久的致力于提供高质量视频存储与传输服务的创业公司。在此之前的5年,Zoe 曾任 Google Chrome Media 团队软件工程师一职,并作为开源视频编解码标准 AOM/AV1 的核心成员参与研发与标准制定。她在清华大学获得了学士、硕士与博士学位,并在美国普度大学获得了第二个博士学位。不论作为主要贡献者还是技术负责人,Zoe 在多个音视频产品的设计与研发工作中都有突出贡献,包括苹果 FaceTime、Tango 视频电话、Google Glass 视频电话等。Zoe 还在多个著名研究实验室有多年的创新研究经验,包括贝尔实验室、诺基亚研究中心、太阳微处理器中心实验室、惠普实验室等。她曾发表过40余篇国际论文,并拥有50多项国际专利。她还曾作为演讲人,在2018年的 Google I/O 大会上为开发者们分享了 AV1的核心技术与最新动态。
上海交通大学图像通信与网络工程研究所副所长
研究员,博士生导师,IEEE高级会员,上海交通大学图像通信与网络工程研究所副所长。研究方向是视频编码、图像处理及计算视觉。主持国家级科研项目10余项,发表学术论文150余篇,获授权发明专利35项,软件著作权5项。获国家科技进步二等奖(2015)、上海市科技进步一等奖(2011)、上海市技术发明一等奖(2011)、日本大川基金研究奖(2013)、IEEE ICME-Twitch竞赛奖(2017)、国际会议优秀论文奖(IEEE VCIP2016及WCSP2010)。任IEEE Transaction on Broadcasting特邀编委、Springer Multidimensional Systems and Signal Processing(MSSP)编委,IEEE电路与系统协会视觉信号处理与通信(VSPC)技术委员、视频体验联盟技术组组长、中国智慧家庭产业联盟4K极客工作组技术委员等。
北京大学信息科学技术学院教授
北京大学信息科学技术学院教授, 2005年博士毕业于中国科学院计算技术研究所。2005年8月至2007年8月在美国南加州大学进行博士后研究,之后到北大工作至今。主要研究方向为视频编码及处理,已发表论文200余篇,已获授权发明专利40多项。担任IEEE Transactions on Circuits and System for Video Technolgoy(TCSVT)、Journal of Visual Communication and Representation(JVCIR)期刊编委(AE)、中国图象图形学学会理事、AVS视频组联合组长等。自2002年起,陆续参与组织AVS1、AVS+、AVS2一系列国家标准的制定,曾获国家技术发明奖二等奖、国家科学技术进步奖二等奖等奖励。
声网Agora 国际业务 COO
曾领导财富500强企业和高增长初创企业的发展,拥有超过17年的战略商业企业领导和商业管理经验,推动公司和团队在全球范围内取得成功和成就。加入Agora以前,Reggie就职于Redis Labs,这是一家世界领先的NoSQL数据库技术公司,他帮助公司引进了大量人才,并作为销售副总裁带领团队实现了巨大的增长。Reggie在Redis Labs任职期间,该团队在德勤2017年的技术快速500™排名中高居榜首,这是北美发展最快的500家技术公司之一。在加入Redis Labs之前,雷吉曾担任强生公司的高级董事,以及Magic Software Enterprise的首席风险官,总部位于以色列的纳斯达克交易企业软件公司。
Visionular Inc 联合创始人兼首席科学家
Zoe Liu(刘宇新)是 Visionular (微帧科技)的联合创始人、董事长兼首席科学家。Visionular 是一家创立不久的致力于提供高质量视频存储与传输服务的创业公司。在此之前的5年,Zoe 曾任 Google Chrome Media 团队软件工程师一职,并作为开源视频编解码标准 AOM/AV1 的核心成员参与研发与标准制定。她在清华大学获得了学士、硕士与博士学位,并在美国普度大学获得了第二个博士学位。不论作为主要贡献者还是技术负责人,Zoe 在多个音视频产品的设计与研发工作中都有突出贡献,包括苹果 FaceTime、Tango 视频电话、Google Glass 视频电话等。Zoe 还在多个著名研究实验室有多年的创新研究经验,包括贝尔实验室、诺基亚研究中心、太阳微处理器中心实验室、惠普实验室等。她曾发表过40余篇国际论文,并拥有50多项国际专利。她还曾作为演讲人,在2018年的 Google I/O 大会上为开发者们分享了 AV1的核心技术与最新动态。
阿里达摩院机器智能技术实验室 视频技术负责人
叶琰是阿里巴巴(美国)达摩院机器智能实验室的视频技术负责人,负责 ITU-T/VCEG 与 ISO/IEC/MPEG 等国际视频标准,视频编解码实现,以及视频理解和内容分析等方向的研发工作。在加入阿里巴巴之前,她是 InterDigital的研发总监,统管视频标准与平台研发,带领团队进行国际视频标准化制定和端到端视频通讯系统原型的开发工作。加入InterDigital之前,她还曾在杜比实验室负责图像技术研究工作,也曾在高通负责过多媒体研发与标准的建立。她参与了多项视频编解码与流媒体的国际标准制定工作,包括 H.266/VVC,H.265/HEVC ,SHVC,MV-HEVC,SCC,MPEG PCC,MPEG DASH和MPEG CMAF 等。她是 VVC 测试模型与 360Lib 算法描述的联合作者,也是HEVC 可扩展和SCC 扩展标准的联合作者。她的研究涉猎广泛,包括基于机器学习的视频编码,视频处理与内容分析,AR/VR,视频编码,视频流传输,和实时的沉浸式视频通话等。她在中国科技大学获得本科及硕士学位后,进入加州大学电子与计算机工程学院,并获得了博士学位。她是 IEEE 的高级会员。
万维网联盟 (W3C) 技术项目总经理
万维网联盟 (W3C) Web 技术总负责人,管理 W3C 所有在进行的 Web 标准技术项目。曾是 W3C 的前端技术总监,对 Web 性能、Web 多媒体技术、Web 安全等有十分深入全面的了解。
万维网联盟由Web的发明者 Tim Berners-Lee 及W3C的首席执行官 Jeffrey Jaffe 领导,由设立在美国麻省理工大学(MIT)、欧洲数学与信息学研究联盟(ERCIM)、日本庆应大学(Keio University)和中国北京航空航天大学的四个全球总部(W3C Hosts)的全球团队联合运营。W3C的使命是通过开发协议、指南和标准确保Web的长期发展,尽展Web的潜能。W3C 发布的都是开放性标准,基于Royalty-Free(RF)的方式加以实现,标准都对公众可用,且使用标准没有额外的费用,其技术规范覆盖了IT及互联网、出版、电视与媒体、汽车、金融、航空等众多领域。"
RTC大会是全球最大的RTC技术布道会议,是世界顶级专家和开发者分享最前沿技术和实践的聚会。
至今吸引了数万名开发者前来交流学习。现在我们向整个社区开放征集讲师,如果你有值得和社区伙伴一起分享的好议题,不要犹豫,请向我们提交。
舞台属于每一个开发者,聚光灯渴望新生力量。We are your conference!
北京市朝阳区三丰北里2号楼悠唐购物中心1层
悠唐皇冠假日酒店
15101014297
tickets@agora.io
18618191582
qinxingxing@agora.io
15001349349
pengxiaohuan@agora.io
万维网联盟 (W3C) Web 技术总负责人,管理 W3C 所有在进行的 Web 标准技术项目。曾是 W3C 的前端技术总监,对 Web 性能、Web 多媒体技术、Web 安全等有十分深入全面的了解。万维网联盟由Web的发明者 Tim Berners-Lee 及W3C的首席执行官 Jeffrey Jaffe 领导,由设立在美国麻省理工大学(MIT)、欧洲数学与信息学研究联盟(ERCIM)、日本庆应大学(Keio University)和中国北京航空航天大学的四个全球总部(W3C Hosts)的全球团队联合运营。W3C的使命是通过开发协议、指南和标准确保Web的长期发展,尽展Web的潜能。W3C 发布的都是开放性标准,基于Royalty-Free(RF)的方式加以实现,标准都对公众可用,且使用标准没有额外的费用,其技术规范覆盖了IT及互联网、出版、电视与媒体、汽车、金融、航空等众多领域。”
搜狗AI交互事业部高级总监,语音技术部负责人,负责搜狗语音(识别、合成、声纹等)、图像(手写、唇语识别等)、机器翻译等多个技术方向,并主要负责搜狗知音OS、机器同传、语音听写、旅行翻译宝、录音翻译笔等多项软硬件产品的技术研发工作,致力于通过技术和产品的创新提升人工智能技术的实际落地能力,为用户提供优质的使用体验。 |
待定
Zoe Liu是 Visionular (微帧科技)的联合创始人兼首席科学家。微帧于2018年7月成立,是全球领先的视频AI与超高清解决方案提供商。专注于融合人工智能、新一代视频编码、图像处理等先进技术,提供低成本、超高清、智能化的视频服务。公司设立杭州、北京、硅谷三地核心研发团队。Zoe曾就读于清华大学,并获得学士、硕士与博士学位,并于美国普渡大学获得第二个博士学位。Zoe多年专注于视频编码和通信领域。在创立微帧之前,Zoe曾在Google Chrome Media团队工作5年,作为开源视频编解码标准 AOM/AV1 的核心成员参与研发与标准制定。Zoe曾先后就职于多个世界著名实验室,包括贝尔实验室、诺基亚研究中心、太阳微处理器中心实验室、惠普实验室等。Zoe也是苹果 FaceTime、Tango 视频电话、Google Glass 视频电话等实时音视频通信产品的核心开发者。她曾发表国际论文40余篇,署名国际专利50余项。她还曾作为演讲人,在2018年Google I/O 大会上为开发者们分享了 AV1的核心技术与市场前景。
待定
感知编码是指在编码的时候结合人眼特性,进一步减除人眼通常注意不到的地方以达到节省码率的目的,或者加强人眼观看的主观效果。感知编码可以包含前处理、后处理以及编码过程中的多个算法。这里会简要介绍一下相关话题以及我们在实时通信领域限制下的相关实践。
近几年,超分辨率技术一直是计算机视觉领域的一个热门话题,其应用前景广泛,比如RTC。然后,超分辨率技术在移动端落地的过程中,面临着模型过大、运算复杂、设备发热过大的问题。本次演讲内容将重点分享超分辨技术在移动端落地的探索和实践经验,内容包括对抗神经网络、模型剪枝压缩等。
视频网站面临的技术挑战之一是如何对视频做精准的用户分发,理解用户、环境和视频内容是解决问题的核心和关键。以头部视频为主的视频网站由于用户选择成本更高、消费行为稀疏、复杂而且感性,因此对视频进行精确、细致与丰富的理解和刻画显得更为重要。相比传统的基于用户行为的推荐系统,如何借助于视频内容理解来优化个性化推荐和内容发现呢?本次演讲内容将重点分享Hulu在这一方面的探索和实践经验,内容包括视频理解在内容冷启动、视频精细化标签和分组、深度推荐模型中的应用等等。
相较于成熟的图片、视频审核,语音是行业公认的新难题。语音违规不仅风险更隐蔽、影响更恶劣,其对应的AI技术也存在更高的壁垒。难点一:高复杂度场景下的语音识别。语聊房、视频直播、短视频中的语音往往伴有极强背景音(如音乐、噪声等)、语速极快咬字不清、口音严重等情况, 使得其识别难度数倍于传统场景。难点二:极低误报率要求下的违规内容过滤。上述场景中,违规内容出现的概率往往在万分之一甚至十万分之一,这就要求算法模型在不漏太多的情况下尽可能的减少误报(从而减少人工审核的工作量)。本次演讲,依图将结合自身经验,介绍如何有针对性的进行技术实现和方案设计,克服以上难点。
南京大学电子学院副教授,博导。2004年和2006年获华中科技大学学士和硕士学位,2011年获纽约大学(New York University)博士学位。2011年至2014年分别在三星电子美国研究院,华为美国研究院从事下一代视频压缩技术的研究和标准化工作。2015年获登峰计划支持,加入南京大学。长期从事视频信号处理和通信研究,并在视频处理能耗感知、视觉感知和计算等方面做出一系列开创性研究。发表学术论文60余篇,被Google Scholar引用1900余次,申请美国发明专利40多项,获得专利授权17项。多项专利技术被国际/国家标准采用。曾获863国家数字视音频编码特别贡献奖,2018 ACM SIGCOMM研究竞赛入围, 2018 PCM最佳论文入围, 和2019 IEEE 广播技术协会最佳论文。
网络是动态变化的,如带宽波动和意想不到的延迟,伤害用户的体验质量(QoE),而且全球网络媒体服务都需要面对这个问题。在这次演讲中,我们提出了一个神经自适应传输(NAT)框架解决全球网络规模下互动媒体服务的网络问题。整个神经自适应传输(NAT)系统有三个主要组成部分:一个基于学习的云覆盖层路由(COR)方案,通过绕过网络拥塞并找到最低延时路径,提供最佳传输路径;一个基于协同视频处理(CVP)系统的残余神经网络在设备端来协调端上的计算能力,通过学习分辨率缩放来改进QoE;还有一个深度强化学习(DRL)的自适应实时流(ARS)策略,用来选择适当的视频比特率,以获得最大QoE。我们验证过COR可以提高用户满意度5%到43%,CVP可以减少相同质量下带宽消耗的30%以上,基于DRL的ARS可以保证流媒体流畅度,QoE也可改善50%以上。
博士生导师,现任北京邮电大学信息与通信工程学院多媒体教研中心主任、IEEE 高级会员、中国计算机学会 CCF 高级会员、ACM 会员。2003 年于北京邮电大学获得工学博士学位。研究方向为智能信号处理、视频编码与通信,在移动互联网安全技术国家工程实验室、可信分布式计算与服务教育部重点实验室从事科研工作。负责的留学研究生课程《通信综合实验》在 2016 年被教育部评为来华留学英语授课品牌课程,是目前获评的唯一的实验类课程。2014 年获得北京邮电大学“大学生创新实践工作突出贡献指导教师奖”。2016 年,赴美国马里兰大学参加“北京邮电大学优势学科全英文课程体系建设青年骨干教师海外研修计划”项目。2014 年、2015 年连续两年获得中国产学研合作创新成果奖。国家自然科学基金评审专家、教育部学位与研究生教育发展中心评审专家、北京航天飞行控制中心评审委员会专家。
在移动通信技术发展史上,从来没有像5G这样,让CT与IT技术如此紧密的结合在一起。5G的能力开放让更多的资源可以为开发者使用,系统解耦让更多的技术可以不断迭代更新,网络切片让更多的业务可以复用于同一张网络。
5G时代展示了一个全新的生态,由此对音视频的冲击不仅仅是高速率低时延,还有丰富的场景和业务。音视频编码技术在充分考虑了智能算法之后,开始考虑工业互联网场景,新场景新业务的爆发将是5G时代的重要特点。音视频应用也不再会局限于短视频,很多深度体验和强交互式业务将有可能获得新生。
“
毕业于上海交通大学,声网SDK资深架构师,负责前端API和整体架构。原摩托罗拉家庭部门首席工程师,研究多媒体系统框架,超过10年的音视频相关领域经验。
音视频数据的实时传输需要面对诸多复杂的网络问题。其中网络拥塞是最常见的影响实时音视频互动的问题。声网在全球部署了一个实时传输网,通过实时监控、基于智能路由算法的优化,实测平均延时 76ms,每天产生 3 亿分钟数的通话。本演讲将分享我们在高速实时传输的网络拥塞控制经验。
2009年毕业于北京大学计算机系,就职于百度网页搜索部。2011年加入微软,2014年加入小冰团队。目前任微软小冰研发总监。
6DoF视频是目前的2D平面视频和VR 360度视频的下一阶段视频技术,主要体现在两个方面,首先,6DoF视频能够使得普通的2D视频往3D化体验方向发展,其次,6DoF视频能够在目前VR 360视频提供的3DoF自由度基础上再进一步,达到6DoF的自由度体验。另外,从视频技术的发展来说,6DoF视频是视频技术和视觉技术的有机结合,从而提供了视频新产品形态的可能。
目前,6DoF视频技术已经开始逐步走出实验室预研阶段,在MPEG以及AVS标准建设的同时,在工业界的不同业务场景下也开始找到了新的用户价值。在体育和综艺场景下,如何通过6DoF技术来增强用户的3D化体验,使得内容的表达能够在3D的层面上更专业和更激动人心,是我们目前探索的一个重要方向。
视频内容正越来越成为互联网应用的主流。我们除了优化原生视频内容的传输外,如何给让视频更加智能、更加丰富则成了带宽红利时代的新课题。计算机图形学在电影、游戏领域已经发展了数十年,在新的消费级视频浪潮下,步入智能阶段的图形学在AR视频交互、AI视频合成、云渲染等方向上,可以给视频带来什么样的新价值,是本次演讲想要探讨的主题。
W3C WebRTC 技术的布道师。超过20年的,软件通信领域工作经验。致力于帮助公司简化通信技术,创造优雅有效的解决方案。现在担任 testRTC 的联合创始人兼首席执行官,该公司专注于测试和监控 WebRTC 应用程序。
2011年毕业于华东师范大学,原英特尔WebRTC核心研发工程师,2011年开始参与Android,Chromium,WebRTC等多个开源项目开发,常年活跃于开源社区,2014年成为WebRTC Committer,2015年加入声网Agora,主要负责WebRTC在服务端架构设计与开发,探索H5在音视频领域的应用。
H5 直播在聊天群、企业协同应用、在线教育等场景下很常见。往常会被采用的 HLS、HTTP-FLV 存在延时高或流量大等缺点,而看似兼容广泛的 WebRTC 在不同手机上的编码格式又未得到统一。这使得 H5 直播的功能和实时性受到了限制。本次演讲将总结过去一年的研发实践,从前端技术选型、性能、兼容性等层面分享我们在 H5 实时直播上的经验。
待定
伴随着音视频和网络技术的快速发展,音视频内容逐渐成为互联网内容的主流,而这些内容的用户体验也显得愈发重要。B 站一直致力于用户音视频播放体验的改善及优化,于去年正式引入并全量上线 MPEG-DASH 作为新的流媒体解决方案。上线之后经过多次版本迭代优化,最终实现 5分位秒开,卡顿率得到大幅优化,切换体验大幅提升,获得用户一致好评。
而我们 B 站使用的 MPEG-DASH 是一种自适应比特率串流技术,使高质量流媒体可以通过传统的 HTTP 网络服务器以互联网传递。MPEG-DASH 播放器可以无缝适应不断变化的用户网络或者缓冲区大小并提供高质量的播放体验,减少卡顿率。同时,基于 B 站现有的音视频技术,我们也在一直思考如何为用户带来更独特的内容,更炫酷的方式,以及更优质的体验等。
数美科技技术副总裁,在云计算、大数据、人工智能领域有9年一线实战和团队管理经验。先后就职于百度、360,历任技术经理、技术总监,负责数千PB数据量、数万台服务器规模的云计算和大数据平台建设,参与网页搜索、云存储、在线广告、语音识别等数据智能业务研发。
现任onvideo资深前端开发工程师。负责编辑器部分的核心功能开发。精通图像处理及动效制作,有着丰富的渲染和动效方面的开发经验
Evan McGee是SignalWire的CTO和创始人,该公司通过简单的API的强大功能为所有技能水平的开发人员提供可编程的语音,消息和WebRTC通信。 Evan在电信行业拥有十多年的丰富经验,包括在无线MNO / MVNO,传统PSTN和VoIP / WebRTC OSS方面的技术和业务专业知识。 他拥有涵盖硬件和软件设计的专利和专利申请,并经常在会议上演讲,主题涉及容器化的全球SaaS部署,微服务架构以及实时设置中的机器学习应用。
待定
滴滴每天服务几千万人次出行的过程中,产生了20GB+/S的日志数据,这些数据需要及时、完整的同步到大数据体系中,以满足业务实时、离线数据加工的需求。面对数以万计的服务节点,复杂的线上环境,严格的资源消耗,秒级的延时要求,建设一个稳定、及时、安全的日志采集系统是一个充满挑战的问题
曾就职于新东方集团。在视频行业深耕近十年,具有丰富的音视频研发经验。精通 WebRTC 整体架构及其处理流程;对常见的 3A 问题(回音消除、降噪、增益)具有非常丰富的实战经验;对网络传输有独道的见解。
北京理工大学毕业,2018 年加入声网后担任音频算法工程师,主要负责编解码器SOLO X以及AI-PLC的研发,并参与SOLO的开源。个人对能切实带来便利性、提升幸福感的技术感兴趣。