人工智能是如何实现与人类的对话的呢？

问答 › 分类: 科技 › 人工智能是如何实现与人类的对话的呢？

0 赞踩

别把最疼爱你的人弄丢了管理员提问 3 年之前

人工智能是如何实现与人类的对话的呢？

问题标签：

1 回复

0 赞踩

拽萌少女管理员回复于2023-03-22之前

人机智能对话在教学应用中，就得首先用到语音识别技术。为了让机器（智能老师）听懂人话，研发人员需要收集几万小时甚至十几万小时的学生语音去“训练”这个多层神经网络模型。

10万个小时的学生声音需要多大的存储呢？一分钟的声音大约需一兆字节的存储，10万小时的声音需要6TB（6000G）的存储空间，整个训练过程需要多台计算机多个CPU和GPU并用，分布协同工作连续运行约一周时间。可以看出，机器学习是一个很消耗算力的工作。

除了使用语音识别技术，智能机器还得接受发音分析技术的训练。

人工智能是如何实现与人类的对话的呢？

在这个任务中机器已经知道学生说了什么，然后需要判断学生说的是不是和标准的声音相似。语音识别任务的目标是为了容忍并听懂各种糟糕发音，而发音分析是为了挑出发音中的问题。这个貌似简单的任务其实很不简单——人可以轻松地把一个女孩儿说的A和一个成年男性说的A判断为“发音相同”，聪明地忽略他们因为性别、年龄差别对声音其实带来的巨大不同，但这对机器智能是一个挑战。

在各种智能互动训练任务中，语音合成技术也起到了重要的作用。有了这个技术，计算机才能对人说话，不仅避免同学们总是看屏幕文字，而且互动更加自然，也保护了视力。语音合成技术的背后可以使用不同的技术方案，包括波形拼接技术：直接录下一个人在录音棚里朗读的声音，存储为一个几十兆或者几百兆的包含了不同上下文的声音波形仓库，然后就可以根据合成任务的需要寻找正确的上下文波形进行拼接；还可以使用“声道参数模型”，在计算机内部模拟出气流通过声带振动和发音器官产生出最后语音波形的过程。这个方法不需要直接存储声音，但需要从声音中分析出这个人的发音器官的声道模型。