国产大模型成功解锁“眼睛”,智谱AI(即北京智谱华章科技有限公司)在9月12日开幕的2024年中国国际服务贸易交易会(简称服贸会)上展示了最新发布的清言App “视频通话”功能。据悉,这是全球首个面向大众用户开放的大模型视频通话功能。
据介绍,清言视频通话功能跨越文本、音频和视频三大模态,具备实时推理能力。用户可以打开摄像头,通过视频通话窗口与清言交流,清言不仅能“看”到用户画面,还能听懂指令并准确执行,即便频繁打断也能迅速反应。在画面上划重点,清言还可以理解用户想让它重点关注的地方。
提供作业辅导。
智谱AI表示,此前GPT-4o上线了语音但并未对公众开放视频功能,利用清言可以体验到目前最前沿的AI/大模型技术。过去和AI交互主要是文字形式,有了视频功能,用户可以告别文字长篇大论的提示词和AI丝滑交流。清言就像用户身边有眼力见、能听懂话的人类助手,只要摄像头一拍,AI就能知道用户的环境、想让AI做的事,用户只需口头吩咐。
国产大模型成功解锁“眼睛”。
清言视频通话功能还可变身随身英语翻译,可实现即时翻译中英文,根据用户所处环境信息进行英语对话,并协助纠正用户的语音和语法错误。这一功能的使用场景包括在旅游时随时讲解景点故事,为视障人士识别环境等,还可以提供学科作业辅导、面试指导,在会议中完成纪要和总结,分析复杂的数据图表,实时解读电脑屏幕的代码。
在此次服贸会上,智谱AI将展示多款最新产品。除了清言App的视频通话功能外,还包括AI生成视频功能。智谱今年早些时候推出了视频生成模型CogVideoX,并在智谱清言App上线具备视频生成的“清影”功能。清影面向所有用户开放,只需输入文本或上传图片,30秒内即可生成6秒视频。今年7月,清影上线清言App,六天时间用户生成超过100万支视频。
还没有评论,来说两句吧...