大模型超进化!ChatGPT将支持图片和语音输入
据IT之家,近日,OpenAI宣布推出新版ChatGPT,增加了两项新功能:语音输入和图像输入。OpenAI称,新功能将在未来两周内向ChatGPT Plus订阅用户推出,其他人也将“很快”能够使用这些功能。
语音输入功能类似于手机上的语音助手,用户只需按下一个按钮,说出自己的问题,ChatGPT就会将其转换为文本,然后生成答案,再将答案转换为语音,播放给用户。AI识别语音在技术上并非难事,相当于加了一个“语言-文本”转换环节,目前更重要的是提升准确性,尤其是在面对不同语言、甚至是方言和俚语的情况下,能否依旧准确识别并输出对用户有帮助的内容。另外,跨语种场景下的识别和生成结果,同样需要细细打磨。
图像输入功能方面,用户可以拍摄自己感兴趣的事物,并上传到ChatGPT中。ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。ChatGPT的优势在于它可以进行多轮对话,而不是一次性搜索。如果用户对答案不满意或想要更多信息,可以继续向ChatGPT提问,从而得到更准确和全面的答案。
而在公司经营层面,OpenAI除了要面对高昂的运营和训练成本,以及尚未寻找到实现盈利的突破口等挑战外,公司还遭到了阻击。当地时间周一,美国电商和云服务巨头亚马逊宣布,将投资40亿美元,投资人工智能初创企业Anthropic。根据新合作协议,Anthropic将使用亚马逊自研的人工智能芯片来构建、训练和部署亚马逊的智能大模型。同时,Anthropic未来将通过亚马逊云来完成其大部分工作业务,从而帮助提升亚马逊云的服务质量。ChatGPT确实在技术上存在优势地位,但面对“钞能力”这种不讲道理的竞争方式,OpenAI同样压力山大。