最近在閱讀關(guān)于智能語音方面的書籍,將最近零零碎碎的筆記重新整理了一番,希望能讓讀者更加快捷、高效的認(rèn)識智能語音方面的基礎(chǔ)知識點(diǎn)。
智能語音對話系統(tǒng)
語音交互界面是近年來最重要的趨勢之一,它不僅可以依托于智能手機(jī)而存在,而且可以和智能家居、車載導(dǎo)航、智能電視、智能音響等一系列產(chǎn)品結(jié)合到一起。越來越多的人更加頻繁地使用 Siri、Google Assistant、Cortana、小愛同學(xué)等。越來越多的應(yīng)用也都已經(jīng)涉及到智能語音技術(shù)。
1、語音和語言有何區(qū)別?
我們首先需要了解「語音」和「語言」的區(qū)別。
語音是語言的信號載體,語音是人的發(fā)音器官發(fā)出的,承載一定的語言意義,而語言才承載人類的智慧。通俗的講,語音是天生就存在的,嬰兒剛出生的哭喊聲也算是語音。它是人的發(fā)音器官發(fā)出具有一定社會意義的聲音。其物理基礎(chǔ)主要有音高、音強(qiáng)、音長、音色四要素構(gòu)成。而語言則是需要學(xué)習(xí)不斷進(jìn)化的。在智能語音中,我們需要考慮的是如何確保在復(fù)雜的現(xiàn)實(shí)環(huán)境下,把干擾信息過濾,獲取到準(zhǔn)確的信息。
2、語音界面之間的關(guān)聯(lián)
喚醒:Amazon Echo 和 Google Home 之類的語音驅(qū)動設(shè)備不斷地在等待喚醒詞(“Alexa ...”或“OK,Google ...”)從而進(jìn)入喚醒狀態(tài)。
反饋:一旦喚醒,設(shè)備會將隨后接收到的音頻發(fā)送到云端的AI平臺。 該平臺使用自動語音識別(ASR)和自然語言理解(NLU)的組合來識別用戶的意圖并將其發(fā)送到支持應(yīng)用程序。
回復(fù):應(yīng)用程序處理請求并通過文本進(jìn)行響應(yīng)(如果支持則提供可視化信息)。該平臺將文本轉(zhuǎn)換為語音并通過設(shè)備播放。
3、對話系統(tǒng)概述
對話系統(tǒng):能夠與人進(jìn)行連貫對話的計算機(jī)系統(tǒng),可以采用文本、語音、圖形、觸覺、手勢及其他方式與人進(jìn)行交互,常以語音交互為主。
而如今的智能設(shè)備能夠“理解你所說的話并且采取行動”,是兩個重要技術(shù)結(jié)合的結(jié)果:一個是自動語音識別(ASR),另一個是自然語言理解(NLU)。
自動語音識別(ASR) — 通過聲學(xué)模型和語言模型,將人的語音識別為文本的技術(shù)
自然語言理解(NLU)— 對用戶輸入的文本進(jìn)行語義理解,包括用戶意圖識別和語義槽填充
對話狀態(tài)跟蹤(DST) — 根據(jù)所有對話歷史信息推斷當(dāng)前對話狀態(tài)St和用戶目標(biāo)
對話策略學(xué)習(xí)(DPL) — 基于當(dāng)前狀態(tài)生成下一步操作
自然語言生成(NLG) — 獲取結(jié)果文本,主要依據(jù)模板或深度生成的模型生成用戶可以理解的自然語言文本
從文本到語音(TTS) — 結(jié)果播放給用戶聽,將自然語言文本轉(zhuǎn)化成語言輸出
4、語音交互設(shè)計需要遵循什么原則?
遵循合作原則:「聽者」和「說話者」為了能夠順利交談,必須互相合作。Paul Grice 提出了這個觀點(diǎn),并將其分為以下4個準(zhǔn)則。
質(zhì)的準(zhǔn)則:說真實(shí)信息,做不到的話不要說。
舉例:對用戶說:“有什么可以幫您的嗎?”,而實(shí)際上整個 VUI 系統(tǒng)僅僅能提供查詢話費(fèi)余額。
量的準(zhǔn)則:保持對話交流簡潔,減少認(rèn)知負(fù)荷。
解釋:刪除多余的措辭。比如“請您注意聽,因?yàn)槲覀兊倪x項(xiàng)可能已經(jīng)變了”。
相關(guān)準(zhǔn)則:所說的話需與當(dāng)前對話有關(guān),不干擾當(dāng)前任務(wù)進(jìn)行。
解釋:比如用戶想知道天氣,你給他推薦旅游的地方。
方式準(zhǔn)則:說話需清晰、明了,不要拐彎抹角。
解釋:不要使用讓用戶難以理解的「專業(yè)術(shù)語」。
了解 VUI 相關(guān)知識
語音交互界面(VUI)指的是為用戶提供可進(jìn)行語音交互的計算機(jī)平臺,它能夠?qū)崿F(xiàn)自動化的服務(wù)并且提供完整的相關(guān)流程。而設(shè)計 VUI 的時候,設(shè)計師需要側(cè)重于用戶的語音交互過程,并設(shè)計出相應(yīng)的語音應(yīng)用系統(tǒng)。由于 VUI 是面向用戶的交互界面,因此滿足用戶的實(shí)際需求是至關(guān)重要的。
1、語音用戶界面 VUI 簡史
20世紀(jì)50年代:貝爾實(shí)驗(yàn)室建立了一個單人語音數(shù)字識別系統(tǒng)。
20世紀(jì)60、70年代:語音數(shù)字系統(tǒng)的這項(xiàng)研究仍在不斷拓展可識別的詞匯,并且致力于實(shí)現(xiàn)“連續(xù)語音”的識別。
20世紀(jì)80年代:技術(shù)進(jìn)步讓語音識別更具實(shí)用性,使日常語音的識別成為可能。
20世紀(jì)90年代:誕生了第一個可行的非特定人的語音識別系統(tǒng)。簡稱 IVR
21世紀(jì)初期,IVR 系統(tǒng)成為了主流,任何人都可以通過一個普通的固定電話和語音進(jìn)行股票詢價、機(jī)票預(yù)定、銀行轉(zhuǎn)賬、處方藥品預(yù)定、本地電影排片查詢以及收聽交通信息等。
2、那什么是 IVR 系統(tǒng)?
交互模式的語音應(yīng)答,簡稱為 IVR。我們后續(xù)簡稱為:交互式語音應(yīng)答(IVR)系統(tǒng)
它可以通過電話線路理解人們的話并且執(zhí)行認(rèn)為,一般都廣泛的應(yīng)用在運(yùn)營的客服方面,即使是現(xiàn)在三大運(yùn)營上的機(jī)器客服還是采用了這種語音應(yīng)答的方式。但是通過電話撥號的方式開始語音的問答還存在很多的缺點(diǎn),例如只能應(yīng)用在單輪任務(wù)的問答,交互方式比較單一,不能進(jìn)行中途打斷等缺點(diǎn)。
IVR,即語音增值業(yè)務(wù),是移動運(yùn)營商由2002年開始啟動的業(yè)務(wù)。移動的 IVR 分為兩大品牌:音信互動和娛音在線,聯(lián)通的 IVR 品牌為聯(lián)通。
3、IVR 系統(tǒng)設(shè)計與移動設(shè)備
21世紀(jì)初,IVR 系統(tǒng)已逐漸普及。起初“按鍵+語音”的混合形式(請按“1”或者說“1”),是很常見的模式,比如10086的查詢功能。人們創(chuàng)造了 IVR 系統(tǒng),希望它可以自動處理一些事物,這樣客戶就不會總是需要找一個真人來解決問題了。相比與真人客服交談,很多用戶實(shí)際上更喜歡使用 IVR 系統(tǒng),因?yàn)樗麄兛梢曰ê荛L時間反復(fù)咨詢信息而不會覺得他們是在“打擾”一個人類客服。
移動 VUI 設(shè)計需要注意:
1、確定它是否需要一個視覺化的呈現(xiàn),比如一個虛擬角色。
2、確定你的 VUI 在什么時候允許用戶說話?可以被打斷嗎?是否需要按鍵功能?
4、VUI 的優(yōu)勢是什么?
速度快:語音輸入的方式比手動輸入快很多,同樣的時間可以輸出更多的信息。
釋放雙手:釋放雙手與機(jī)器進(jìn)行交互,比如駕駛狀態(tài)下,通過語音輸入完成用戶需求,安全和便利。
直覺性:說話更自然,更容易。可以直接通過語音輸入的方式來表達(dá)你的意愿。
同理心:語音包含了語氣、音量、語調(diào)和語速,且傳遞了大量的感知信息,不僅僅是文字那么簡單。
5、哪些場景不適合使用 VUI ?
公眾場所:開放的環(huán)境辦公,比如:咖啡館、圖書館等。環(huán)境影響因素較大,不利于用戶語音的錄入和接收。
不適應(yīng)對計算機(jī)說話:并不是每個人都喜歡對計算機(jī)大聲說話,即使是在私人空間。
更喜歡打字:許多人習(xí)慣每天在手機(jī)上花幾小時,大部分的時間都是在打字。
隱私安全:比如身份證、銀行密碼等。GUI 比 VUI 更加適合高效安全輸入。
6、哪些場景適合使用 VUI?
使用場景需要騰出雙手,比如車載導(dǎo)航、智能音響。
作為家庭的控制中心,打造智能家具居控制的切入點(diǎn)。
語音記錄病歷,不管對醫(yī)生來說還是患者來說,都是提高看病效率的很好助手。
幫助用戶簡單記錄、查詢、照顧用戶的作息時間等。
7、VUI 設(shè)計師的工作內(nèi)容
VUI 設(shè)計師思考的是在系統(tǒng)和終端用戶間,從開始到結(jié)束的整個對話過程。他們思考正在解決的問題以及用戶需要什么來達(dá)成他們的目的。VUI 設(shè)計師在項(xiàng)目中扮演著非常重要的角色。通常會參與項(xiàng)目全程的工作,并與團(tuán)隊(duì)合作完成在技術(shù)、體驗(yàn)、設(shè)計上的優(yōu)化。
如果 VUI 需要與后端系統(tǒng)進(jìn)行交互,他們要考慮需要處理的請求。如果流程中有人的因素,比如客服需要交接,那么設(shè)計師需要考慮如何進(jìn)行交接,以及如何培訓(xùn)客服。
語音用戶界面基本設(shè)計原則
1、對話式用戶界面
對話式設(shè)計定義:思考如何與 VUI 系統(tǒng)進(jìn)行一輪以上的交互。
因此,需要設(shè)計一輪以上的對話,并思考用戶接下來可能會做什么。不要強(qiáng)迫用戶展開新一輪對話,而是去嘗試了解用戶的意圖并允許用戶繼續(xù)交談,同時有必要為用戶近期所說的話保留歷史記錄。
2、多模態(tài)界面
與 IVR 系統(tǒng)不同的是,在移動設(shè)備上我們可以增加一個可視化組件。
比如在向用戶傳達(dá)信息、確認(rèn)信息,以及告訴用戶什么時候輪到他們說話等。(比如:百度地圖的小度,他會告訴用戶什么時候可以說話,目前所處的狀態(tài),說完之后給予的反饋)
如果有一個可視化組件,則會讓移動設(shè)備增強(qiáng)優(yōu)勢。允許用戶同時使用語音和屏幕進(jìn)行交互。(手機(jī)上虛擬助手,有些雖然以語音交互為主,但是在用戶的智能手機(jī)上也會有一個配套的APP)。
3、設(shè)定用戶期望
優(yōu)秀的對話式設(shè)計不僅僅是精心制作的友好提示。Google 交互設(shè)計師 Margaret Urban 建議:如果你不能理解答案,就不提問。
“當(dāng)某個人成功完成了一次語音交互,伴隨著腦內(nèi)咖(endorphin)的升高,用戶會獲得一種成就感和滿足感。此時正是一個絕佳的時機(jī)來告訴用戶”你做的很棒,要不要再試試這個?”
是否讓我們想到了網(wǎng)頁登陸驗(yàn)證的時候,需要完成一塊拼圖,但是你再慢他也告訴你超越全球96%以上的人。
“如果你已經(jīng)設(shè)計了一個設(shè)置鬧鐘的功能,但是你沒有提供用戶取消設(shè)置的方式,這就像給人一條浴巾但是沒給他香皂一樣。如果你設(shè)置了可以完成某項(xiàng)任務(wù)的語氣,請務(wù)必考慮與之相關(guān)的任務(wù)。”
4、確定策略時需注意的幾點(diǎn)
輸入確認(rèn):必須確保用戶感覺到自己是被理解的,同時有助于讓用戶知道,什么時候 VUI 不理解他們所說的話。
1、確認(rèn)錯誤的后果是什么?比如:預(yù)定錯誤的航班?制定錯誤的任務(wù)?播放錯誤的歌曲?
2、系統(tǒng)將如何反饋?比如:會有音頻提示嗎?是否有視覺反饋嗎?比如Amazon Echo上的光環(huán)。
3、是否擁有屏幕?比如:車載導(dǎo)航、手機(jī)屏幕、智能手表。
4、選擇合適的確認(rèn)形式?比如:明確確認(rèn)、含蓄確認(rèn)、混合式的確認(rèn)。
5、確認(rèn)策略的兩種方案
顯性確認(rèn):重要信息,需強(qiáng)制用戶確認(rèn)信息。
隱性確認(rèn):讓用戶知道他的話接收到了,但不需要他們確認(rèn)。
6、確認(rèn)信息的方式
三級置信度:
系統(tǒng)將在一定的閾值內(nèi),以明確的形式確認(rèn)信息,拒絕較低置信度的信息,并以隱性確認(rèn)來確認(rèn)置信度超過80%閥值的信息。
1、80%以上,使用隱性確認(rèn)。如果是誤識別代價高的話,考慮采取顯性確認(rèn)。
2、45%-80%,使用顯性確認(rèn),以明確的形式確認(rèn)信息。
3、45%以下的,拒絕確認(rèn)信息。
舉例:用戶:幫我再買一份口香糖。
VUI:(置信度大于80%,使用隱性確認(rèn))好的,已經(jīng)為您再購買一份口香糖。
(置信度45%~79%,使用顯性確認(rèn))您是想再多買一份口香糖,是嗎?
(置信度小于45%)對不起,我沒有聽清您講的話,您想買什么?
隱性確認(rèn):
1、只使用隱性確認(rèn),不要求用戶進(jìn)行操作。
2、將「答案」和連同「原始的問題的一部分」一同回復(fù),讓用戶知道系統(tǒng)識別到的是哪個問題。
3、當(dāng)置信度高的時候,也可以不用連同問題,這樣更自然流暢。
非語言式確認(rèn):
1、僅需行動反饋,而不需要口頭響應(yīng)。
2、通過視覺確認(rèn),比如小米智能家居,可以通過語音交互打開燈光、電視、窗簾等。
a、如果沒有延遲,沒必要再對其回復(fù)。
b、如果有3-5秒延遲,需進(jìn)行回復(fù),讓用戶知道并不是設(shè)備沒有聽到她的聲音。
3、使用一個“聲音標(biāo)識”,即簡短的、有識別度的聲音。這樣有助于幫助用戶快速知道他們已經(jīng)到了哪一步。
通用確認(rèn):
1、在某些對話式系統(tǒng)中,最好不要詢問用戶具體說了些什么 - 哪怕是隱性確認(rèn)。
2、通用確認(rèn)可以讓用戶分享更豐富的體驗(yàn),因?yàn)檫@類反饋能適應(yīng)用戶輸入的各種信息,并讓對話繼續(xù)進(jìn)行。通常人與人之間的對話,也不會句句必回復(fù),也會有 “嗯” “哦 ”“啊” “然后呢”等。
視覺確認(rèn):
1、確認(rèn)一個項(xiàng)目清單,通過屏幕顯示進(jìn)行溝通會更加有效。人的記憶有限,通常用戶一次性不能記住超過大約7個聽覺項(xiàng)目。
2、用來確認(rèn)用戶的選擇。用戶可以通過說話或按下按鈕來回復(fù)。而 GUI 的反饋指令更加明確。
7、判斷你的 VUI 適合哪種類型
目前大多數(shù)的 VUI 系統(tǒng)都是“命令 - 控制”模式,這意味著當(dāng)用戶想要說話時,必須給出明確的指示。
1、用戶可以隨時向系統(tǒng)詢問 / 發(fā)出命令嗎?
2、是否參與一個有明確開始和結(jié)束的封閉式對話?
8、命令-控制模式
喚醒系統(tǒng)方式:按鍵通話(車載導(dǎo)航、Siri等)、直接進(jìn)行關(guān)鍵詞呼叫(“OK Google”“小度”等喚醒詞)。
喚醒系統(tǒng)反饋:系統(tǒng)檢測到用戶說話完成,通常會使用某種非語言的音效進(jìn)行提示,然后做出相應(yīng)處理(比如:“啵”的一聲或者視覺反饋:聲波線、點(diǎn)狀動效、設(shè)備逐漸發(fā)光等)。
系統(tǒng)聆聽時間:用戶說出喚醒詞或按下按鈕后,系統(tǒng)保持聆聽狀態(tài)的時長,根據(jù)經(jīng)驗(yàn)來看,10秒 是個不錯的起始時間段。
喚醒響應(yīng)時間與反饋方式
喚醒響應(yīng)時間與喚醒反饋方式有關(guān),不同喚醒反饋方式下,最佳響應(yīng)時間不同:
1、當(dāng)喚醒反饋為"燈光"反饋時,喚醒響應(yīng)速度越快越好,在200ms時,用戶響應(yīng)舒適度最高(對響應(yīng)時間評價為剛剛好的用戶比例),73%的用戶對速度滿意。
2、當(dāng)喚醒反饋為"燈光+音效"時,喚醒響應(yīng)速度的舒適時間為300ms左右,76%的用戶對速度滿意。
3、當(dāng)喚醒反饋為"燈光+人聲"時,喚醒響應(yīng)速度的舒適時間為500ms左右,74%的用戶對速度滿意。
數(shù)據(jù)來源:百度人工智能交互設(shè)計院智能音響時間測試實(shí)驗(yàn)
喚醒等待時間體驗(yàn)感
用戶請求及反饋階段響應(yīng)時間對等待體驗(yàn)的影響:
1、1250ms以內(nèi)是用戶認(rèn)為響應(yīng)速度較優(yōu)的區(qū)間,其中650ms為最佳體驗(yàn)值。在450ms時,少量用戶覺得響應(yīng)速度太快了,用戶會感覺到緊迫感和壓力,難以接受。
2、在1450ms時,有53%的用戶開始感覺響應(yīng)有延時,但仍能夠接受。
3、從2150ms開始,有20%的用戶認(rèn)為音箱響應(yīng)太慢,不能夠接受。我們認(rèn)為20%的用戶不滿意,已經(jīng)不足以被稱為一個優(yōu)秀的產(chǎn)品。
數(shù)據(jù)來源:百度人工智能交互設(shè)計院智能音響時間測試實(shí)驗(yàn)
9、對話模式
1、不要強(qiáng)迫他們不斷地去表明他們將要開始說話,自然地對話技巧進(jìn)行話輪轉(zhuǎn)換。
2、通過更精細(xì)的設(shè)計,使 VUI 系統(tǒng)可以處理一些常見的微妙表達(dá)方式。(用戶處理完畢說“謝謝”,你可以設(shè)置系統(tǒng)忽略這種情況,或回復(fù)“不用客氣”,而不是提示或者報錯。)
3、不要問你都無法理解的反問句。
4、打破話輪轉(zhuǎn)換的情況,用戶在系統(tǒng)說完之前就進(jìn)行提問。
5、在命令 - 控制模式和對話模式之間進(jìn)行切換。喚醒之后進(jìn)行自然的對話。
10、對話式標(biāo)識
使 VUI 更加人性化、更具吸引力,對話式標(biāo)識是讓用戶了解交談進(jìn)展以及進(jìn)展情況的重要方式,當(dāng)系統(tǒng)在對話中使用了一些基本的對話禮儀后,用戶的參與度會更高,并且會以同樣的方式進(jìn)行回復(fù)。
反面案例:
虛擬助理:你昨晚你睡了幾小時?
用戶:大約7個小時。
虛擬助理:你昨天吃了幾份水果和蔬菜?
用戶:大概有4份。
虛擬助理:你昨晚吃藥了嗎?
用戶:吃藥。
虛擬助理:再見。
正確案例:
虛擬助理:我會問你幾個有關(guān)你身體健康的問題。第一個問題,昨晚你睡了幾小時?
用戶:大約7個小時。
虛擬助理:不錯。你昨天吃了幾份水果和蔬菜?
用戶:大概有4份。
虛擬助理:了解了。最后一個問題,你昨晚吃藥了嗎?
用戶:吃藥。
虛擬助理:好的,暫時就這些了,我明天還會再問你的,回見。
11、異常處理
“當(dāng)你與人類交談時,永遠(yuǎn)不會出現(xiàn)不可恢復(fù)的錯誤狀態(tài)。”
— ABI JONES, Google 設(shè)計主管
“你偶爾因?yàn)榉稿e和不知道某些事情導(dǎo)致評分降低造成的影響,比你每次做對一件事情重要百倍。”
— 英特爾語音助手部經(jīng)理 Pilar Manchon
如果處理的得很好,錯誤情況就不會影響用戶,你可以讓用戶回到正常流程,并順利完成任務(wù)。但如果處理不好,用戶不僅這次無法完成任務(wù),他們以后都可能再也不用你的產(chǎn)品了。
一個好的設(shè)計師應(yīng)該知道,你不能只設(shè)計正常的情況, 你還要對出錯的情況做出設(shè)計。這對于 VUI 設(shè)計來說尤為重要,因?yàn)槌鲥e情況是家常便飯。
未檢測到語音 / 檢測到語音,但沒有識別
1、什么情況下可以明確說出來?
a、你的系統(tǒng)只使用語音
b、用戶沒有其他的回復(fù)方式
c、必須要用戶回復(fù)后,系統(tǒng)才能繼續(xù)進(jìn)行任務(wù) / 對話
2、什么情況下可以什么都不做?
a、用戶可以通過其他方式進(jìn)行下一步操作(比如通過按鍵選擇)
b、就算什么也不做,也不會中斷對話
c、系統(tǒng)沒有理解時,用視覺信息提示告訴用戶,比如:提示列表等
d、利用虛擬表情形象反饋,疑問、微笑等動作表達(dá)
其他異常處理
1、當(dāng)出現(xiàn):語音被正確識別,但系統(tǒng)無法處理
a、程序?qū)﹃P(guān)鍵屬性理解不明,寫了錯誤的回復(fù)
b、沒有針對一些情況的回復(fù)
解決:對用戶可能會說到的所有情況做更完善的預(yù)測,通過數(shù)據(jù)收集來避免此問題
2、當(dāng)出現(xiàn):部分語音識別錯誤
a、什么也不去處理,因?yàn)檫@不是你想要的結(jié)果
b、匹配錯誤的行為
解決:可以用 N-Best 列表來智能匹配最有可能的識別結(jié)果
3、增強(qiáng)錯誤提示
a、當(dāng)需要用戶說話的時候,使用這種增強(qiáng)錯誤提示策略
b、必要的情況下,進(jìn)階錯誤行為提示可以更為詳細(xì),并提供更多的幫助
c、如果你正在設(shè)計一個可以提供真人輔助的系統(tǒng),可以為錯誤數(shù)量設(shè)置一個閾值,當(dāng)達(dá)到該閾值時,將用戶轉(zhuǎn)移給人工助手
12、新手和專家用戶
如果你的用戶會定期使用你的系統(tǒng),那么在設(shè)計中就需包含不同的策略。
“務(wù)必確保你的目標(biāo)不是簡單的訓(xùn)練你的用戶,應(yīng)當(dāng)適應(yīng)用戶的行為,而不是用已有的命令讓用戶感到厭煩。”
— Google 交互設(shè)計師 Margaret Urban
我們在 VUI 設(shè)計上該如何更好的交互設(shè)計?
1、減少冗長指令以及其他引導(dǎo)提示。通過計算 APP 使用次數(shù)和頻率來確認(rèn)是否切換模式。
2、縮短解釋性提示。但是請務(wù)必使用“對話式標(biāo)識”。
3、啟動效應(yīng)。
什么是啟動效應(yīng)?
指某人受到某種特定的刺激后(例如一個詞語或者圖像)會影響他們對之后刺激的反應(yīng)。首先讓用戶預(yù)先知道你會問他們幾個確定數(shù)量的問題,為后面會發(fā)生的事情提供了暗示,用戶就會知道如何去準(zhǔn)備。比如以下情況:
1、當(dāng)給人們呈現(xiàn)一個還沒完成的草圖,隨著這個草圖越來越完整,人們就越來越辨認(rèn)出這張圖畫的是什么。之后,再給他們呈現(xiàn)其他還沒完成的草圖時,他們會更早辨認(rèn)出這張圖畫的是什么;
2、如果當(dāng)給人們呈現(xiàn)一組漢字,假如里面含有 “河” 這個字,隨后讓他們寫出部首是 “氵” 的字時,這些人回答 “河” 的幾率會更大。
談?wù)勛约簩π率趾蛯<矣脩舻睦斫?/strong>
01、專家型用戶:代表老用戶且愿意探索你的產(chǎn)品或服務(wù),有著很大的包容度。并會積極提出各種改進(jìn)的建議和享受產(chǎn)品帶來的驚喜感。
02、新手:什么叫新手,就是剛剛下載你的產(chǎn)品,準(zhǔn)備使用的用戶,對產(chǎn)品功能都還處于陌生摸索的階段。他們不會因?yàn)槟愕募夹g(shù)而使用你的產(chǎn)品,使用你的產(chǎn)品目的是完成某項(xiàng)任務(wù)。他們有興趣使用更高級更復(fù)雜的產(chǎn)品,但卻不愿意接觸全新的東西,要想讓他們認(rèn)可,那么產(chǎn)品就必須足夠簡單。
13、持續(xù)跟蹤上下文
持續(xù)跟蹤信息并不容易,但如果不跟蹤這些信息,你的 APP 就只能做單輪的對話行為。
指代:用兩個不同的詞語指同一個東西。比如: “他” “哪些”
14、幫助和其他通用部分
我們在設(shè)計 IVR 系統(tǒng)時,我們會確保每個狀態(tài)都包含一組通用組件:重復(fù)、主菜單、幫助、操作和再見。
15、延遲
產(chǎn)生原因:糟糕的連續(xù)性能、系統(tǒng)處理進(jìn)程、數(shù)據(jù)庫訪問
處理方式:告知用戶關(guān)于延遲的情況(比如:“請稍等,正在查找相關(guān)記錄”)、非語音和視覺的提示(比如:延遲提示音以及加載狀態(tài))、可視化效果(比如:加載中的動態(tài)圖標(biāo))
處理細(xì)節(jié):延遲的時長可能為0~10秒,在沒有延遲的時候最好也插入幾秒的延遲。因?yàn)槿绻谙到y(tǒng)說“請稍等”之后,緊接著就繼續(xù)對話的話,會給用戶帶來異樣的感受。很多設(shè)備針對喚醒詞采用了本地化識別的方式,這樣喚醒的會更快。
16、消除歧義
問題來源:用戶只會提供執(zhí)行命令所需的部分信息,而沒有提供所有的細(xì)節(jié)。
舉例:用戶可能會詢問某地的天氣,而很多地方都有叫這個名字的地點(diǎn),諸如“湖南路”那邊的天氣怎么樣。
解決方案:
1、依靠任何已知的信息來確定答案,而不是再次詢問用戶。
2、根據(jù)上下文線索進(jìn)行判斷。
3、反問用戶進(jìn)行確認(rèn),確保系統(tǒng)對用戶同一個問題的各種各樣的回復(fù)形式都有良好的適應(yīng)性。
4、指令不明確。比如“給胡歌打電話,撥打工作電話還是家庭電話?”,系統(tǒng)以隱性的形式對名字進(jìn)行了確認(rèn),系統(tǒng)對這個名字有很高的置信度,并且僅有一個胡歌。
5、用戶回答的信息超初了你的 VUI 系統(tǒng)可以處理的范圍時,你可能需要縮小范圍消除歧義。
17、設(shè)計文檔
我們需要制作:示例對話(sample dialogs)和會話流(dialog flow)文檔外其他一些情況。例如:在設(shè)計過程中,你還需要創(chuàng)建提示列表、完善對話每個狀態(tài)指定完整的語法規(guī)則等等。
18、無障礙設(shè)計
“一開始,我就很討厭屏幕閱讀器的工作方式。為什么它會被設(shè)計成這樣?當(dāng)以視覺的方式來展示信息沒有任何意義時,屏幕閱讀器只是簡單地將文字轉(zhuǎn)換成音頻。所有那些應(yīng)用花在創(chuàng)造完美用戶體驗(yàn)的時候和精力此時都變得沒有任何意義,甚至有的給盲人用戶帶來了更糟的體驗(yàn)。” — 克里斯·莫里(Chris Maury)
19、典型 VUI 項(xiàng)目交付項(xiàng)內(nèi)容
示例對話:系統(tǒng)和用戶之間可能產(chǎn)生交互行為的預(yù)設(shè)對話,對話看起來就像電影劇本一樣,包括兩個主要角色之間來回往復(fù)對話。
流程圖:展示下一個狀態(tài)分支的所有方式,不一定要羅列所有的交互或示例對話,也可以是功能的分組、文本的分組等。
提示列表:如果沒有屏幕可以使用配音演員或語音合成來播放提示列表。
產(chǎn)品原型:如果這是一個多模態(tài)產(chǎn)品,有屏幕、支持觸摸交互。
參考文獻(xiàn):
《語音用戶界面設(shè)計:對話式體驗(yàn)設(shè)計原則》-【美】Cathy Pearl(凱瑟 彼爾)
語音交互入門:從概念,原理到如何設(shè)計VUI產(chǎn)品 - 杜松
AI時代的語音設(shè)計經(jīng)驗(yàn)漫談 - 少夫白杰
語音用戶界面設(shè)計 - 對話式體驗(yàn)設(shè)計原則 - walle_x