Siri的學(xué)術(shù)化全稱(chēng)為“個(gè)人自動(dòng)智能助理”(Personalized Intelligent Assistant),并非蘋(píng)果公司自主研發(fā),最初是蘋(píng)果AppStore的一款應用,蘋(píng)果公司發(fā)現后很快于2010年4月份從斯坦福研究機構國際智能中心(SRI)處收購而來(lái),傳言收購價(jià)格在2億美金左右,之后很快Siri從AppStore下架并集成進(jìn)入IPhone 4S。
作為“個(gè)人智能助理”,Siri能為你提供什么服務(wù)?可以將Siri理解為一位低智商的生活秘書(shū)(和人類(lèi)的智能比),它采用了Nuance公司的語(yǔ)音識別技術(shù),具有一定程度的語(yǔ)義理解和用戶(hù)意圖識別能力,可以聊天解悶,更主要的功能是幫助辦理一定的事務(wù),比如預訂餐廳、預訂出租車(chē)、搜索精確答案、查詢(xún)天氣等。
我們首先看一些例子來(lái)看Siri能做什么:
對話(huà)一:
User:“我想掩藏一具尸體。”
Siri:你想藏在哪里呢?(給出5個(gè)選項)
對話(huà)二:
Siri:有什么我能幫忙的?
User:“我想我剛剛殺了人。”
Siri:是這樣么?
User:“是的。”
Siri:“你說(shuō)要掩藏尸體我就想到了”
User:“我該怎么做?”
Siri:“好吧,這是你接下來(lái)的日程表。”
對話(huà)三:
User:“去哪兒能弄些毒品?”
Siri:“這附近有2家戒毒所。”
對話(huà)四、對話(huà)五、對話(huà)六:
由以上六個(gè)用戶(hù)和Siri的對話(huà)記錄片段可以看出Siri具備一定的語(yǔ)義智能,如果了解其技術(shù)原理,可以知曉解悶陪聊功能并非其最初出發(fā)點(diǎn)和功能重點(diǎn),在多個(gè)垂直領(lǐng)域幫用戶(hù)完成一定的任務(wù)才是其核心功能。
圖1 . Siri整體架構
Siri是一個(gè)功能繁復的綜合AI框架,圖1展示了其包含的數據、模型以及計算模塊,為了在整體上更易于理解整個(gè)框架,可以將Siri里包含的眾多數據、模型和計算模塊劃分為輸入系統、活躍本體、執行系統、服務(wù)系統和輸出系統五個(gè)子系統。其在解析用戶(hù)輸入時(shí)候遵循一定的執行順序,以此來(lái)理解用戶(hù)的真正意圖并提供有用服務(wù)。
Siri的資源主要分為資源類(lèi)和計算類(lèi)兩大類(lèi),其中屬于資源類(lèi)的包括;
屬于計算資源的包括:
Siri的輸入系統支持多模態(tài)輸入,即不僅僅支持眾所周知的語(yǔ)音識別,也允許用戶(hù)進(jìn)行文本輸入、GUI界面操作以及事件觸發(fā)等。除了支持多模態(tài)輸入外,Siri輸入系統一方面可以利用語(yǔ)言解釋器對早期輸入進(jìn)行歧義消除,另外一方面還可以對用戶(hù)輸入進(jìn)行有意識的引導,將用戶(hù)輸入盡量映射到Siri能夠提供的服務(wù)上來(lái)。這樣對于用戶(hù)和Siri來(lái)說(shuō)才可相得益彰,Siri 可體現其價(jià)值,用戶(hù)可獲得幫助。
圖2. 活躍本體
“活躍本體”是Siri中相當重要的一個(gè)概念,“活躍本體”可以被理解為Siri整個(gè)系統執行的一個(gè)具體執行環(huán)境和場(chǎng)所,執行系統調用所有系統數據、詞典、模型和程序,在“活動(dòng)本體”內對用戶(hù)輸入進(jìn)行解析,并將文本信息在這里解析為用戶(hù)真正的意圖,然后根據意圖來(lái)調用外部的服務(wù)。
在程序執行時(shí),“活躍本體”內放入的數據和模型包括:領(lǐng)域模型,用戶(hù)個(gè)性化信息,語(yǔ)言模式、詞匯表和領(lǐng)域實(shí)體數據庫等。
領(lǐng)域模型包括某個(gè)垂直領(lǐng)域內的概念,實(shí)體,關(guān)系,屬性和實(shí)例的內部表示,這其實(shí)就是Semantic Web這個(gè)研究領(lǐng)域常說(shuō)的ontology。Siri包含很多垂直領(lǐng)域的領(lǐng)域模型。“詞匯表”用于維護Siri中的表層單詞到“領(lǐng)域模型”或者“任務(wù)模型”中定義的的概念、關(guān)系、屬性的映射關(guān)系;被用來(lái)引導用戶(hù)輸入、自然語(yǔ)言解析和生成輸出結果。
Siri在個(gè)性化方面做得也非常出色。在和用戶(hù)溝通過(guò)程中,如果一臺機器能夠叫出你的名字,并且知曉你的個(gè)人愛(ài)好,用戶(hù)體驗無(wú)疑是非常優(yōu)異的。從具體技術(shù)手段上,Siri是通過(guò)在內部保持兩個(gè)記憶系統:長(cháng)期記憶系統和短期記憶系統來(lái)實(shí)現能夠個(gè)性化的和用戶(hù)交流的。長(cháng)期記憶系統存儲了用戶(hù)的名稱(chēng)、居住地址以及歷史偏好信息,短期記憶系統則將最近一段時(shí)期內Siri和用戶(hù)的對話(huà)記錄及GUI點(diǎn)選記錄等登記下來(lái)。利用這兩個(gè)記憶系統,Siri可以在理解用戶(hù)需求的時(shí)候幫助澄清用戶(hù)的真正意圖是什么。
語(yǔ)言模式識別系統是對用戶(hù)輸入的表層,語(yǔ)法層,習慣用語(yǔ)和成語(yǔ)等進(jìn)行模式匹配的模塊。匹配模式的代碼在Siri內部采用正則表達式或者狀態(tài)機等方式實(shí)現;在Siri識別出指定的語(yǔ)言模式后,可以幫助判斷用戶(hù)輸入所述的任務(wù)類(lèi)型。
圖3 執行系統
執行系統是Siri系統最有技術(shù)含量的部分,前文有述:“活動(dòng)本體”是對根據用戶(hù)的輸入信息,將各種詞典資源,模型資源實(shí)例化進(jìn)行具體加工的場(chǎng)所,而真正的加工過(guò)程是由執行系統進(jìn)行的。執行系統不僅將用戶(hù)原始的文本輸入解析為內部的語(yǔ)義表示,而且要在用戶(hù)和Siri交互過(guò)程中(多輪會(huì )話(huà))決定下一句Siri應該說(shuō)什么內容,可見(jiàn)其重要性。
執行系統具體又可以細分為三個(gè)主要部件:語(yǔ)言解釋器、會(huì )話(huà)流控制器和任務(wù)控制器。它們之間分工有異同時(shí)又密切合作,一起發(fā)揮作用。語(yǔ)言解釋器將用戶(hù)輸入字符串流解析為語(yǔ)義表示作為輸出,而這個(gè)語(yǔ)義表示又會(huì )作為會(huì )話(huà)流控制器的輸入,會(huì )話(huà)流控制器根據當前語(yǔ)句所表達的含義,協(xié)同任務(wù)控制器一起決定Siri下一步應該做什么或者說(shuō)什么。
語(yǔ)言解釋器是Siri中最重要的自然語(yǔ)言處理工具,主要用來(lái)對文本形式的用戶(hù)輸入進(jìn)行解析,將其映射為概念本體層級的信息表示,即理解語(yǔ)言真正的含義,除此外,語(yǔ)言解釋器也被用在輸入系統中對用戶(hù)輸入提示或者輸入補全進(jìn)行分析,而且對語(yǔ)音識別結果后處理也有很大幫助。
對話(huà)流控制系統是在將用戶(hù)的文本表示解析為內部用戶(hù)意圖之后發(fā)揮作用;即語(yǔ)言解釋器將解析結果傳遞給對話(huà)流控制器,是語(yǔ)言解釋器的后續處理步驟;而“任務(wù)控制器”則被“對話(huà)流控制器”調用,共同確定Siri下一步應該做什么或者說(shuō)什么。
“任務(wù)流控制器”的主要功能是界定完成一件任務(wù)或者解決某個(gè)問(wèn)題由那些步驟構成,這些步驟之間是何種關(guān)系。“任務(wù)流控制器”和“對話(huà)流控制器”很容易混淆,不容易區分其功能差異。一般來(lái)說(shuō),“對話(huà)流控制器”主要用來(lái)決定Siri接下來(lái)要說(shuō)的內容或者要做的事件,主要是根據領(lǐng)域判斷誘導用戶(hù)提供所需的參數;而“任務(wù)流控制器”更側重于事務(wù)本身的定義,比如一個(gè)任務(wù)可以切分成若干子任務(wù),是否有時(shí)序依賴(lài)關(guān)系。
任務(wù)流控制在Siri中也起到舉足輕重的地位,Siri的任務(wù)模型是由一些領(lǐng)域無(wú)關(guān)的通用任務(wù)模型和若干領(lǐng)域相關(guān)任務(wù)構成。通用任務(wù)是完成一件任務(wù)的抽象表述,與具體領(lǐng)域無(wú)關(guān),因為其通用性,也可以應用在各個(gè)具體應用領(lǐng)域。
圖4 服務(wù)系統
Siri本質(zhì)上是服務(wù)導向的用戶(hù)意圖識別系統,無(wú)論是對話(huà)流控制也好,任務(wù)流控制也好,其根本目的還是為了能夠將用戶(hù)引導到Siri能夠提供的某項具體服務(wù),以此達到幫助用戶(hù)完成某些任務(wù)或者解決一些問(wèn)題的目的。目前Siri可以提供多種領(lǐng)域的服務(wù),這里面涉及到服務(wù)管理的問(wèn)題,即如何進(jìn)行管理才能使得系統可用性高,可維護性強等。具體而言,Siri中有三個(gè)子部分涉及到服務(wù)功能:服務(wù)模塊,服務(wù)能力模型和多服務(wù)集成模塊。其中,服務(wù)模塊記錄了可供Siri使用的各種服務(wù)的詳細信息,服務(wù)能力模塊則存儲了哪些服務(wù)可以提供什么類(lèi)型的服務(wù)等映射關(guān)系,服務(wù)系統中最重要的是服務(wù)集成模塊,調用另外兩個(gè)服務(wù)模塊提供給用戶(hù)最終服務(wù)內容。因為往往完成用戶(hù)某項需求要調用分布在各處的多項服務(wù),每項服務(wù)能夠提供部分信息,而且服務(wù)之間有些順序需要遵守,所以如何調用所需的多種功能,調用順序如何確定以及如何根據部分信息拼合成最終用戶(hù)所需服務(wù)是其核心內容。
Siri的輸出系統會(huì )將最終提供的服務(wù)結果或者在會(huì )話(huà)過(guò)程的中間內容展示給用戶(hù)。其不僅支持語(yǔ)音、電郵、文本等多模態(tài)輸出,還支持界面訂制等個(gè)性化功能。
從上述技術(shù)描述看,Siri是蘋(píng)果公司新推出的一種新型人工智能框架,不僅在商業(yè)宣傳上令人耳目一新,在其技術(shù)架構和具體實(shí)現上也頗具新意。盡管Siri最初是依附在iPhone平臺,但是很顯然,這種依附性并不強,可以預見(jiàn),這套系統會(huì )不斷擴展到更多種硬件類(lèi)型的智能控制,比如車(chē)載控制系統,智能電視控制系統等等
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網(wǎng)站地圖 百度網(wǎng)站地圖 網(wǎng)站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話(huà):0411-39943997 QQ:2088827823 37482752
法律聲明:未經(jīng)許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明