（译）语音用户界面设计的5则趋势

原文：5 TRENDS OF VOICE UI DESIGN GLEB KUZNETSOV （获得授权）
译文：语音用户界面设计的5则趋势小气的神
译注
我能想到最早接触的VUI产品，是2000年自己的第一台电脑自带的IBM ViaVoice。
但再一次让你觉得兴奋的是，近年VUI承载的服务开始从单一语音输入/控制/应答器工具，走向更可信赖的通用智能。
以下文章来自GLEB，能看到对VUI的理解，不系统不精准但流露着设计师sense的敏锐。
其中很多思路，也与当前译者实践中的百度地图语音设计理念不谋而合。
正文
重要的是，交互（interaction）的概念从来都是关于交流（communication）。人机交互（Human-Computer Interaction）从来都不是关于图形用户界面（Graphical User Interfaces），这也就是为什么语音用户界面（VUI）是用户交互设计的未来。
Interface（接口）只是一个用户与之交互的系统，GUI、VUI或其它什么。所以为什么VUI非常重要？两个原因：
首先，对话式界面是极好的，因为对话（conversation）的交流是每一个人都可以理解的交流形式。
这是一个自然的互动方式。用户与他人使用语音而不是技术。用户不需要去学习任何符号或新术语（GUI语言），他们可以使用英语（或其它母语）来操作系统。这并不意味着用户不需要学习如何使用一个系统，但学习曲线会明显降低。
其次，用户的预期是不断变化的。根据Statista统计，千禧一代使用语音搜索占有39%。这些受众准备好了成为VUI系统的早期用户。
VUI的TOP5趋势
当谈到VUI设计，语音交互表现出对于设计师最大的UX挑战，自iPhone诞生就开始了。但好消息是我们创建GUI产品时大部分最基本的UI设计原则，对于VUI设计仍然适用。以下你会发现在未来数十年，塑造VUI设计的一些趋势。
1.VUI是关于建立信任（VUI THAT BUILDS TRUST）
信任有助于建立人与机器之间的桥梁。如果没有信任，用户不可能与一个特定的语音用户界面进行交互。
有效的结果是重要的。VUI应该让人们理解，她/他将确切地接收到她/他的请求。通过以下几点来实现这一目标：
提高语音识别的准确性（更先进的NLP算法）。
重点了解用户的意图（最开始交互的理由）。当用户与系统进行交互，他们有一个具体的问题要解决，设计师的目标是理解这个问题是什么。
提供有意义的错误信息。
精确的语境驱动的心流（Crafting contextually driven flows）。
诚然对于用户询问系统的指令不可能全部预测，但设计师需要至少设计一个语境驱动的用户心流。当用户搜索一家餐厅，该系统应在每一个接触点预测用户的意图，系统应该完全匹配用户在找的内容。
用户控制的重要性（依然适用于VUI设计，来自Jakob Nielsen的用户界面设计的10条可用性启发法）
该系统应考虑人类大脑的天然的局限性（短期记忆的局限性）。系统提供的信息应该是压倒性的。
当人们听到系统的响应，大多数用户只能记得最后一句话。因此，最好远离冗长的语句或是提供一打不同的选项，因为用户只能在同一时间记住几个。
系统应对用户的请求给出适当反馈。这个反馈应该让用户充分了解，当前系统在立刻执行。例如，视觉反馈让用户知道系统准备好了并在收听；或是在POD（Process of Doing执行过程）。当用户发送一个请求给系统，系统显示一个POD。POD不是加载动画，它不只是当系统执行时用户需要等待的状态，它提供系统在执行什么的有价值信息。例如，对于一个从Dropbox提出文件的指令，可能看起来是在存储器中搜索一个正确的文件。
2.自适应用户界面（ADAPTIVE USER INTERFACE）
一种自适应用户界面（Adaptive User Inferface，也称为AUI）是一个适应用户或情景需求的用户界面（UI）。未来的VUI会适应用户，系统会分析所有有关于用户的信息（包括当前的精神状态和健康状况信息）和他们目前的情况提供给用户更多的更多的相关回应。
例如，如果用户在当下出现高血压，并决定在2小时内有一个会议。一个数字助理会建议避免这件事情发生，或建议在会议开始前通过运动降低血压。
3.VUI传达个性（VUI THAT CONVREY PERSONALITY）
视觉设计师在图形用户界面有很多传达人性化的选择–字体、颜色、插图、动画，这只是被提及选择的一小部分。但VUI呢？设计师可以使用语言本身传达个性，内容、音质以及音调。发声的音质是人格的一部分，它塑造了身份特征。一旦我们提到什么东西的音质，它就会成为其身份的一部分。当我们与一个这样的界面交互我们会去体会情绪，就像我们在与真实的人互动。人们希望听到可理解的语音（Understandable Voices）——不是听起来像人类的语音，而是一个陈述行为一致人类（coherently human）的语音。
译注：音质，根据语境翻译voice一词。音质包含音量（强度）、音高（音频频率）、音色（泛音）。
反面案例：Susan Bennett演绎的Siri语音，语音听起来几乎是人类，但人们仍然知道这是一个机器。你不能真的与Siri进行对话。虽然你可以问Siri说“今天的天气怎么样？“你不能问更复杂的问题，比如，“我今天要穿什么？“因此，你不会对Siri有很深的感情，你知道它只是一个机器人。
正面例子：电影Her中萨曼莎的声音，语音听起来是行为一致人类的语音，所以人们会爱上它。
4.从Narrow AI走向通用智能（FROM NARROW AI TOWARDS GENERAL INTELLIGENCE）
人机交互正在转向对话，但用户期望的更多。目前可用的大多数AI系统仍然局限于Narrow AI，如系统使用机器学习来解决一个明确定义的问题。Narrow AI对他们的训练数据之外的知识一无所知。这意味着当用户想要解决稍微不同的问题，或者问题自身进化了，系统将不能解决它，并且反馈“我不懂”。所以做为用户就会抓狂。
与Narrow AI相比，通用智能并不局限于垂直领域。学习的概念是GI（General Intelligence）系统的基础，是Narrow AI和General AI之间的根本区别，General AI在没有被明确编程的情况下进行学习（机器由自己自学）。GI系统使用两种类型的学习，强化学习（当系统使用所有可用信息来解决特定用户问题时）和监督学习（当系统第一次需要用户帮助来解决问题时）。另一个不同之处在于，Genrnal AI系统可以学习利用其他AI用于一般和特定目的。因此，不同的机器学习模型可以相互依赖、协同工作。先进的NLP GI系统能够通过组合和处理来自多个不同数据源的信息，从初次尝试中学习。
5. 社会影响（IMPACT ON SOCIETY）
VUI系统被广泛接受。提高基于AI系统的VUI，会产生更好的用户参与度。人类与计算机之间的关系将是互动和协作的，人们与计算机将协同工作。这会影响社会，想象一下十年后你走进屋子，只是说话就控制了各类机器。
这个未来将伴随无所不在的人工智能：作为用户，我们将信任人工智能。即使做出如“我应该为我的孩子选择哪所学校？”这样最重要的决定。VUI将提高老年人和残疾人的生活质量。
结论
“The best interface is no interface”是Golden Krishna的一句名言，他是《The Best Interface Is No Interface》一书的作者。他和许多其他设计师认为，人们不想在屏幕占用太多的时间。因此，技术应该停止鼓励基于屏幕的解决方案。而且相对来说很快就会发生，未来的交互不会由按钮组成。
随着计算机处理能力的提高，我们将拥有更多能够在1秒内计算多达1000个步骤的系统。用户和机器将协同工作，从而实现通用智能。

Leave a Reply Cancel reply