發(fā)布時間:2023-10-09 15:04:43
序言:作為思想的載體和知識的探索者,寫作是一種獨特的藝術,我們?yōu)槟鷾蕚淞瞬煌L格的5篇社交媒體研究,期待它們能激發(fā)您的靈感。
(一)傳播視頻主題多樣化,音樂、體育具有較高熱門度通過對YouTube上具有一定點擊量、較為熱門視頻的分析可知,其內(nèi)容主要涉及中國的音樂、飲食、影視、娛樂、習俗等方面,對于中國文化的呈現(xiàn)是多方面的。由于視頻分享網(wǎng)站的視聽多媒體特性,音樂主題的樣本占到了30.1%,其中既有中國的古典音樂,也有現(xiàn)代的流行音樂,還有對國外音樂如《江南style》的中國式改造。影視劇尤其是中國的電影在YouTube上也有一定的收看比例,但數(shù)量不多,比重約為8.3%。飲食文化是中國對外文化傳播中得到國外受眾較多關注的內(nèi)容,在YouTube中的關注度也僅次于音樂和體育,比重約為10.5%。此外,YouTube的熱門視頻中,還包括人文景觀和旅游類、武術類、習俗類、綜合類等內(nèi)容,但比重較低。具體情況詳見圖1所示。
(二)中國文化形象以正面為主,少部分領域呈現(xiàn)負面形象本研究對于視頻樣本涉及的中國文化形象的評價性質(zhì)進行了1~5分的量表編碼,其中非常正面為1分,比較正面為2分,中性為3分,比較負面為4分,非常負面為5分。依據(jù)以上得分標準統(tǒng)計,最后得分為2.56,說明文化形象還是偏向正面的。本研究還設置了“正面評價數(shù)/負面評價數(shù)的比值”指標來考察視頻的受眾評價度(見圖2),大部分視頻的正面評價都大大超出其負面評價,負面評價數(shù)超過正面評價的僅占6.87%。其他學者在對YouTube等國際新興自媒體、社交媒體的研究中指出,環(huán)境、民族宗教等議題涉及到的中國形象偏向負面[4]。與之相比,中國在YouTube中的文化形象呈現(xiàn)出相對的“正能量”。從內(nèi)容的傾向以及受眾的評價反饋來看,文化傳播的負面形象主要集中在飲食、體育等方面。中國盡管具有優(yōu)秀的飲食文化,但YouTube上展現(xiàn)的中國飲食文化形象仍有較多的且影響較大的負面內(nèi)容,《LACRUELDADENLACOMIDACHI-NA》、《SOPRENDENTESOBRELACOMIDACHI-NA》、《DigustingLiveAnimalEatingInChina》、《SnakedinnerinChinaVeryCool》等展示中國烹飪食用蛇、鼠、活魚、貓等不佳內(nèi)容的視頻大都具有逾百萬次的觀看量,而與之相比,《舌尖上的中國》這樣展示博大精深、源遠流長的中國飲食文化的作品在YouTube上平均只有幾十萬的觀看次數(shù)。作為現(xiàn)代社會和消費文化重點的體育領域也成為YouTube上中國負面形象的來源之一,較多體現(xiàn)在體育道德和體育精神不足等方面,這也是需要糾偏和改善之處。
(三)觀看次數(shù)和受眾反饋熱度呈現(xiàn)較大落差,總體傳播效果仍需加強文化傳播的視頻由于內(nèi)容和質(zhì)量的參差不齊,其本身的分異也屬情理之中。但是作為依據(jù)熱門程度的非概率抽樣,本研究中的樣本還是顯現(xiàn)出較明顯的冪律分布特征,少數(shù)具有高度點擊量的視頻占據(jù)分布曲線的頂端位置,而大多數(shù)視頻的觀看次數(shù)迅速下滑,在200萬次左右呈現(xiàn)出顯著拐點,超過200萬觀看次數(shù)的視頻約為11.5%,觀看次數(shù)最高的也只有500多萬次(見圖3)。而在同樣以“China”為關鍵詞的未分類的前530個熱門視頻樣本總體庫中,觀看次數(shù)超過200萬次的約為22%,最高觀看次數(shù)達到8000多萬次,文化向度相比之下仍然偏“冷”。從受眾評論次數(shù)來看,視頻在受眾反饋熱度上的差別也十分懸殊,評論數(shù)超過7000條的約為7%,多數(shù)視頻的受眾參與評論狀況以“長尾”之勢在低位徘徊(見圖4)。而在具有高受眾評論度的文化內(nèi)容視頻中,負面內(nèi)容占到了半數(shù)。這些都顯示著中國文化在社交媒體平臺中的視聽傳播,亟待加強優(yōu)秀的精品內(nèi)容、經(jīng)典內(nèi)容的建設,增強其傳播效果。以韓國《江南style》音樂視頻為例,其在You-Tube上已有逾17億的觀看次數(shù)和600多萬條的受眾評論。“時至今日,《江南style》已不僅是一個文化產(chǎn)品,……它已變成幫助推銷韓國出口商品,包括飲料、化妝品乃至電器的文化品牌。而對于韓國政府來說,《江南style》則儼然成了其在軟實力建構上的標志性成果。”對于我國的文化強國建設來說,需要高度重視社交媒體的文化特質(zhì)和功能,大力引導和鼓勵社交網(wǎng)絡文化產(chǎn)品創(chuàng)作精品供給,大力推動更多、更優(yōu)秀的文化視聽內(nèi)容通過YouTube的全球舞臺走向和融入世界。圖4視頻的受眾評論數(shù)變化曲線圖
(四)電視節(jié)目是傳播的主要來源形式國際社交媒體文化傳播具有多種多樣的形式,如影視劇、MTV、紀錄片、微電影、自拍視頻等。對于當前階段的中國文化傳播來說,最主要的來源形式還是電視節(jié)目,包括電視的新聞節(jié)目、娛樂節(jié)目、直播轉播節(jié)目等,電視節(jié)目在各類形式的視頻數(shù)量中所占比例達到了54%,其中娛樂節(jié)目所占過半,《中國達人秀》、《中國好聲音》等電視節(jié)目成為中國文化國際傳播的新興重要力量,反映了YouTube上中國文化傳播的娛樂化態(tài)勢。此外,由于YouTube和社會化媒體具有內(nèi)容分享、自媒體的特征,錄像、網(wǎng)友自拍攝內(nèi)容也占較大比例,達到17%。MV、MTV等音樂視頻的YouTube傳播也比較便捷,占到了12%。電影的傳播由于其他渠道的競爭和替代,其比重不大。紀錄片、宣傳片、網(wǎng)友自制自創(chuàng)視頻的比重都很小,有待繼續(xù)提升。具體情況詳見圖5所示。圖5各類形式視頻所占比例
(五)國內(nèi)外不同來源的視頻在數(shù)量和形式上存在較顯著差異從這些關于中國文化的視頻制作來源國來看,國外拍攝制作的只占30.08%,中國拍攝制作的占到了67.67%,未知來源的為2.26%。無論是國內(nèi)的還是國外的,各類新聞節(jié)目、娛樂節(jié)目、直播節(jié)目等電視節(jié)目都占據(jù)著視頻來源的主體。從傳播實效來看,國外視頻的平均觀看次數(shù)為1180736次,國內(nèi)視頻為1113730次,差別不大。其中,來源于國內(nèi)的視頻內(nèi)容主要取自國內(nèi)的電視節(jié)目,約占61%,其主體包括中央電視臺和地方電視臺的娛樂、新聞節(jié)目,此外也有一小部分的國產(chǎn)電影和專題宣傳片。來源于國外的視頻內(nèi)容中,電視節(jié)目占到了45%,紀實錄像占到了35%。國外視頻中錄像所占比例大大高于國內(nèi),這也體現(xiàn)出國外的視頻制作者、提供者對直接進入中國拍攝錄像的依賴程度。總體上看,中國文化的國際影響力生成還必須依靠自身的內(nèi)容制作與供給,同時也不能忽視國外在對于中國文化的間接傳播和二次傳播中所起的作用。
(六)“傳統(tǒng)中國”文化傳播的豐富程度顯著超出現(xiàn)代文化我國文化“走出去”的戰(zhàn)略和舉措中,悠久深厚的傳統(tǒng)文化一直是對外傳播的重要資源。在You-Tube中,“傳統(tǒng)文化依賴癥”表現(xiàn)比較顯著,中國傳統(tǒng)文化的傳播內(nèi)容豐富、數(shù)量較多,涉及飲食文化、人文景觀和文化遺產(chǎn)、傳統(tǒng)的風俗習慣、古典音樂、中國功夫等。而中國現(xiàn)當代新興文化成果、文化要素的呈現(xiàn)則相對單薄,大部分集中在電視節(jié)目、影音節(jié)目和當代競技體育項目等方面,缺乏豐富有力的“現(xiàn)代中國”文化形象。以題為《ThisisChina》的一個熱門視頻為例,它對中國的呈現(xiàn)主要還是故宮、舞獅、琵琶、茶、餃子、太極拳、京劇等傳統(tǒng)文化符號,而該片段只在最后幾十秒中出現(xiàn)鳥巢等現(xiàn)代文化要素,時間短,且內(nèi)容意象簡單、貧瘠。從另一個角度來說,中國的當代文化通過一些影視節(jié)目加強了向國際社會“走出去”的力度,但仍然缺乏優(yōu)秀的現(xiàn)代文化資源。有研究者指出,“以往在大力展示中國古代文明的過程中,給國際公眾留下了太多傳統(tǒng)中國的意象。‘古色古香的中國’在一定程度上遮蔽了現(xiàn)代中國的魅力和形象”。YouTube中優(yōu)秀的現(xiàn)代中國文化形象的建構,不僅需要加大現(xiàn)代文化精品的建設力度,而且還需要改善現(xiàn)代文化因子的傳播結構。
二、對策建議
YouTube已是全球化時代的典范新媒體和占有很大市場及流量份額的重要信息平臺。當前,中國文化在YouTube中的國際傳播還存在一些薄弱環(huán)節(jié)和方面,加強YouTube中中國文化的傳播,不僅是針對YouTube的個案需要,也是以YouTube為重要代表的社會性媒體和視聽新媒體的迫切訴求。
(一)加強國際社交媒體的視聽精品內(nèi)容建設,夯實文化走出去的資源基礎盡管我國并不缺乏視聽文化資源,但是在國際社交媒體的舞臺上,還是凸顯出承載中國文化的精品視聽內(nèi)容在建設和供給上的短板,尤其缺乏我國自制的并得到廣泛傳播的優(yōu)秀視聽作品和經(jīng)典力作。以點擊收看狀況為例,YouTube中動輒上千萬收看次數(shù)的熱門視頻并不罕見,而本研究中觀看次數(shù)居前的熱門視頻其平均觀看次數(shù)只有112萬多次,絕大多數(shù)的觀看次數(shù)不超過200萬,這體現(xiàn)著社交媒體的經(jīng)典力作在YouTube上傳播的匱乏。就文化主題的熱度來看,文化方面的視頻在觀看次數(shù)居前的530個視頻樣本中占25%,屬于YouTube傳播的主要維度之一,這既說明文化傳播在YouTube中具有豐富的受眾需求和發(fā)展?jié)摿Γ诧@示著當前對于這種需求和潛力的重視及開發(fā)的不足。我國需要推動適合于社交媒體傳播的優(yōu)質(zhì)視聽文化建設,及時開展和實施對外文化傳播的社交媒體戰(zhàn)略。
(二)引導和發(fā)揮網(wǎng)民主體的作用,推動社交媒體時代的“公眾文化外交”就本研究而言,來源于國內(nèi)的熱門視頻大多數(shù)仍是電視節(jié)目和電影,而普通民眾拍攝或自行制作的視頻只占很小一部分。不隸屬于任何正式傳媒機構或文化組織的網(wǎng)民,其自拍或自制的DV和視頻內(nèi)容未必十分精致,卻由于貼近受眾需求,主題鮮活、生動等原因也可以取得良好反響。如leeds212上傳的題為《VeryfunnyChinesewowvid-eo》(國內(nèi)題為《魔怔世界》)的一個草根自制視頻在YouTube中獲得了120多萬次的觀看量,這已經(jīng)大大超出國內(nèi)一些熱門的電視、音樂、電影的收看量。國外民間主體對中國的文化經(jīng)典、風土習俗、飲食、人文景觀等文化內(nèi)容的拍攝紀錄和紀實,呈現(xiàn)出比國內(nèi)間接推廣更為直接有效的傳播力,但是這些視頻的質(zhì)量及其所反映的中國形象都需要進一步的引導和優(yōu)化。作為一種社交媒體和典型的“自媒體”,YouTube凸顯著個體性、社會性的網(wǎng)民在內(nèi)容制作、國際信息擴散中的巨大作用,也提出對于公眾文化外交的迫切需求。
(三)調(diào)整社交媒體對外文化傳播的要素結構,加大中國現(xiàn)代文化傳播力度國家的對外文化傳播應是傳統(tǒng)與現(xiàn)代要素的整合與平衡,中國在現(xiàn)代化和文化強國建設的進程中,也要注意避免過多的歷史文化要素對現(xiàn)代文化形象的遮蔽。當前,YouTube中的中國傳統(tǒng)文化因子較為豐富,而有效的現(xiàn)代文化傳播在結構上相對滯后,當代語境下新的文化內(nèi)容及其傳播形式與社交媒體的融合都有待進一步加強。要積極促進傳統(tǒng)媒體的“社交化”和國際化發(fā)展,探索微電影等適合于社交媒體受眾特點和互動特征的媒介產(chǎn)品的國際傳播,重點關注音樂、藝術等當代文化領域社交媒體的轉換和傳播,進行社交媒體平臺中文化走出去的資源整合、組織整合與平臺整合,對我國社交媒體平臺中反映中國當代文化的優(yōu)秀視聽作品開展系統(tǒng)的推廣工程,推動中國當代文化形象的構建和整體文化形象的塑造。
自2011年開始,我國政府機構逐漸開始借助微博推動政府部門的信息服務由“國家模式”向“社會模式”轉變,將“被動式”信息服務轉向“主動式”信息服務。國家檔案局局長楊冬權2011年在全國檔案宣傳工作會議上指出,要進一步創(chuàng)新檔案宣傳形式,注重發(fā)揮各種新興媒體的宣傳作用,運用各種新的宣傳形式,比如動漫形式、網(wǎng)絡視頻的形式、微博的形式等,吸引更多的宣傳受眾。目前,我國檔案部門已經(jīng)積極參與到社交媒體的使用中,但同美國檔案館相比,社交媒體在應用范圍、形式、運用策略和政策以及取得成效等方面有很大的差距,美國檔案館運用社交媒體的成功經(jīng)驗值得我們借鑒和學習。
一、中美檔案館運用社交媒體的比較
(一)社交媒體的應用范圍。目前,我國檔案館對社交媒體的應用十分有限。國家檔案館尚未使用社交媒體,省級檔案館對社交媒體的應用水平參差不齊,總體上仍比較滯后。據(jù)相關統(tǒng)計,在我國31個省級( 直轄市、 自治區(qū), 不含港澳臺地區(qū)) 綜合檔案館網(wǎng)站中,應用博客或微博的僅有5個,占16%;應用百科的有6個,占19%;應用RSS或訂閱的有11個,占35%;設置論壇的有14個,占45%;設置留言板的有27個,占87%。我國一些偏遠地區(qū),如甘肅、、內(nèi)蒙古地區(qū)的檔案館尚未運用任何形式的社交媒體工具。
美國國家檔案館從2009年在YouTube網(wǎng)站上開設界面并創(chuàng)建了第一個“推特”(Twitter)微博賬戶開始,逐步將檔案宣傳拓展到博客、微博、百科以及社交網(wǎng)絡領域。由于Web2.0社交媒體工具在美國十分流行,美國檔案館利用社會媒體服務信息,與用戶交流是十分普遍的。據(jù)調(diào)查,2012年,美國50個州檔案館中,有42個將社交媒體應用于檔案工作中,社交媒體的應用率達到84%,并且這些檔案館的網(wǎng)站都提供YouTube、Facebook、Twitter、Blog等多渠道的交流工具,并專門開設反饋通道,收集用戶的意見。
(二)社交媒體的運用形式。根據(jù)國內(nèi)社交媒體營銷專家唐興通的觀點,社交媒體可大致分為8類:社會關系網(wǎng)絡、視頻分享網(wǎng)絡、照片分享網(wǎng)絡、合作詞條網(wǎng)絡、新知共享網(wǎng)絡、內(nèi)容推選媒體、商務關系網(wǎng)絡、社會化書簽。目前,我國檔案館運用的社交媒體形式有論壇、RSS訂閱、百科、微博、博客。按功能劃分,微博、博客、論壇屬于以話題為紐帶的信息平臺,RSS訂閱屬于個性化的信息推送平臺,若將其歸類,筆者認為都應劃為內(nèi)容推選媒體一類;百科則屬于合作詞條網(wǎng)絡。可見,在我國,人們耳熟能詳?shù)纳缃幻襟w工具如“人人網(wǎng)”“開心網(wǎng)”“豆瓣”“QQ空間”“優(yōu)酷”“土豆”等社會關系網(wǎng)絡、視頻和照片的分享網(wǎng)絡尚未運用于我國的檔案工作中。
美國檔案館運用的社交媒體種類繁多、形式多樣。以美國國家檔案館為例,到2013年5月,已在13個社交平臺上開設了145個社交媒體項目。這些社交媒體按功能可分為網(wǎng)絡平臺、社交網(wǎng)絡平臺、文件的分享與存儲平臺三大類,每類社交平臺包含多種社交工具,如網(wǎng)絡平臺包括Twitter、Blog、Wiki、Mashups、tumblr等,用戶憑借這些工具能隨時獲得國家檔案館更新的各類信息;社交網(wǎng)絡平臺包括facebook、foursquare等,這些媒體工具為公眾提供了相互交流與協(xié)作的空間;文件的分享與存儲平臺包括Flicker 、Youtube、Pinsterest、Ustream等照片、視頻分享與存儲工具。可見,美國國家檔案館幾乎運用了所有種類的社交媒體工具,并將不同類型、不同用途的社交媒體工具結合使用,充分實現(xiàn)了與公眾的互動。
(三)社交媒體傳遞的信息內(nèi)容。我國檔案館運用社交媒體所傳遞的信息內(nèi)容多為檔案部門的行政信息、動態(tài)新聞,形式以文本和圖片為主。以微博為例,一些檔案部門的微博只是進行一些轉發(fā),很多還與檔案工作無關;檔案部門原創(chuàng)的微博內(nèi)容大多為工作動態(tài)、工作要聞,沒有對館藏資源進行深入挖掘。微博如何更新、微博主題如何選擇等沒有清晰的定位,造成檔案部門微博的內(nèi)容無特色、主題不突出。因此,檔案部門的微博很少會受到評論和轉發(fā)。此外,博客、論壇和網(wǎng)絡社區(qū)的檔案信息多為檔案界人士的交流信息及成果展示,這為業(yè)內(nèi)人員相互學習搭建了平臺,但與普通公眾的互動度不高。
美國檔案館利用社交媒體傳遞著豐富的信息內(nèi)容,除行政信息外,美國檔案館對館藏資源進行深入挖掘,以文字、圖片、視頻、音頻等多種形式展現(xiàn)給公眾。例如公眾可利用微博和博客分享檔案館的最新信息并進行互動交流;通過訪問“Our Archives”Wiki分享關于美國國家檔案館的館藏及參與者的研究;可以在Flickr上對美國國家檔案館館藏的照片進行下載、標注標簽、發(fā)表評論和注釋;通過YouTube觀看館藏的部分視頻資料;通過Facebook和檔案館保持聯(lián)系,進行互動交流等。
(四)運用社交媒體的策略和政策。中國在社交媒體上的應用正處于迅猛發(fā)展之中,如政府可通過政務微博進行政府信息公開、新聞輿論引導、傾聽民眾呼聲;企業(yè)可利用社交媒體工具進行商業(yè)活動,開展商業(yè)宣傳。由于社交媒體具有參與性、公開性、交流性、對話性等基本特征,人們通過社交媒體傳遞信息、分享觀點,易引起廣泛關注。目前,我國一些企業(yè)和商家在運用社交媒體進行營銷時都采取了相應的積極策略和政策。然而,政府部門尚未針對社交媒體的運用制定出相關的策略和政策,檔案部門亦是如此。
為充分發(fā)揮社交媒體在檔案資源傳播方面的積極作用, 美國國家檔案館于2010 年12 月在其官方網(wǎng)站上正式公布了社交媒體策略,積極倡導社交媒體在檔案工作中的廣泛應用,確定與社交媒體合作的核心價值,即合作、領導、激勵、多元、團體、開放。策略的制定在于促進政府、團體和公民間的溝通和交流,以充分挖掘檔案信息的各種價值,更好地為用戶提供利用服務。2011年2月,美國國家檔案館又出臺了《Web2.0背景下社交媒體平臺文件管理指南》,就社交媒體給檔案工作帶來的新問題作出了解釋并提出應對的策略,如社交媒體平臺的分類、聯(lián)邦政府文件的界定、社交媒體平臺與聯(lián)邦政府文件產(chǎn)生的關系、使用社交媒體后文件管理所面臨的挑戰(zhàn)、社交媒體服務商責任等。此外,美國國家檔案館還制定了社交媒體政策,對每種社交媒體的使用都作出詳細規(guī)定,如用戶的年齡要求、信息的內(nèi)容要求等。
(五)運用社交媒體取得的成效。目前,社交媒體在我國各級檔案部門雖然得以初步運用,但成效一般。根據(jù)中國人民大學檔案網(wǎng)站調(diào)查與測評項目組的調(diào)查顯示,我國省級檔案館網(wǎng)站的網(wǎng)上交互指標平均得分率僅為42.75%,其中最能體現(xiàn)交互功能的網(wǎng)上業(yè)務咨詢、網(wǎng)上論壇得分普遍偏低,分別為0.21和0.23。筆者對檔案微博的使用情況進行調(diào)查,截至2014年6月25日12點,在新浪微博開通微博并進行認證的省級檔案部門(不含直轄市、自治區(qū)、港澳臺地區(qū))共有6個。通過對檢索數(shù)據(jù)的分析,發(fā)現(xiàn)檔案館微博數(shù)量偏低,日均量大多1條左右,而每條微博平均評論量不足1條。
可見,社交媒體在實際應用中,其交互功能尚未發(fā)揮出來。大部分檔案館雖然設置了“網(wǎng)上咨詢”模塊,但是回復速度慢,難以滿足訪問者的及時需求。博客、微博主題不突出、時效性較差,導致用戶與檔案館之間的交流和溝通很難深入。
在美國,社交媒體的利用掀起了美國檔案資源傳播的。2009年,在社交媒體利用之初,美國國家檔案館在Youtube網(wǎng)站“推特”(twitter)微博賬戶上傳的一段視頻的日點擊播放量達到了1.5萬人次。在9個月內(nèi),美國國家檔案館上傳影片的點播量已超過10萬次,視頻點播量超過50萬次。檔案資源傳播速度之快,數(shù)量之大前所未有。從近期美國國家檔案館的統(tǒng)計來看,各種社交媒體的訪問量總體呈上升趨勢,例如Twitter,2014年1月至4月,微博客的用戶瀏覽數(shù)量不斷遞增,4個月內(nèi)用戶瀏覽數(shù)量增加了28830人次。在這些社交媒體中,F(xiàn)acebook和Flickr最受公眾歡迎,2014年2月Flickr的訪問量達到9,925,559人次。由此可見,美國國家檔案館借助社交媒體開展檔案文化傳播取得驚人成效。
三、美國檔案館成功運用社交媒體的優(yōu)勢分析
通過比較發(fā)現(xiàn),我國檔案館在社交媒體運用方面同美國檔案館相比有很大的差距。筆者認為,我國檔案館運用社交媒體的現(xiàn)狀可概況為以下幾個點,即社交媒體的應用范圍小;運用形式比較單一、交流途徑有限;缺少相關策略、政策的引導和規(guī)范;公眾的參與度低,社交媒體的運用尚未取得實質(zhì)性的成效。美國檔案館成功地將社交媒體應用于檔案工作中,筆者認為有以下幾方面的優(yōu)勢。
(一)社交媒體形式多樣,內(nèi)容豐富。美國國家檔案館及各地分館采用多種形式的社交媒體工具,從Twitter、Blog等信息工具,到Flickr、YouTube等圖片、視頻分享平臺,以及Facebook、Foursquare等社交網(wǎng)絡,公眾不僅能夠了解檔案館的最新動態(tài),瀏覽形式多樣的館藏資源,同時還可通過互動平臺及時表達想法、反饋意見。目前,美國檔案館已開設140多個社交媒體專頁和項目,全方位多渠道地把館藏資源和相關信息推介給公眾。
(二)美國國家檔案館的積極倡導。美國國家檔案館作為聯(lián)邦政府檔案工作的最高管理機構,積極倡導社交媒體在全國檔案工作中的廣泛應用,并積極發(fā)揮表率作用,率先在日常工作中使用新技術和方法。同時,美國國家檔案館還了社交媒體策略,即促進檔案工作者間革命性的交流與協(xié)作;創(chuàng)建與政府社區(qū)對話的空間和平臺;建立和加強與研究人員、公民檔案管理者的聯(lián)系。該策略旨在從檔案工作團體、政府社區(qū)、公民檔案者三個層面來促進檔案資源的共享與共建。
〔關鍵詞〕社交媒體;信息可信度;評估;綜述
〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)12-0164-06
〔Abstract〕Information credibility assessment research in social media not only contributes to the development and improvement of network information resource management theory,but also helps to improve the effectiveness of social media monitoring public opinion,social media search,social recommendation and so on.The paper firstly reviewed the researches at home and abroad about the social media information research,information credibility research,and social media information credibility assessment research,and then pointed out the problems existing in information credibility assessment research of domestic social media,and finally put forward the solution to it.
〔Key words〕social media;information;credibility;assessment;review
1 研究的意義
隨著互聯(lián)網(wǎng)技術和移動技術的突飛猛進,社交媒體盛行,人人可做信息的制造者,制造的信息極為豐富。然而,在這豐富信息的背后,隱藏著漫天飛舞的謠言、病毒般傳播的虛假照片和視頻,這給人們幸福的生活、社會的穩(wěn)定帶來了嚴重的隱患。為了遏制虛假不良信息傳播,營造健康向上的網(wǎng)絡環(huán)境,信息可信度評估就成了迫在眉睫的問題,社交媒體信息急需“鑒定師”和“測謊儀”。
社交媒體信息可信度評估研究既有較高的學術價值,也有較強的應用價值。具體來說,學術價值表現(xiàn)在研究社交媒體信息可信度評估并探討虛假信息的生成機制、傳播模式、治理措施,是對社交媒體環(huán)境下網(wǎng)絡信息資源管理理論的豐富、發(fā)展與完善。應用價值表現(xiàn)在研究社交媒體信息可信度評估有助于社交媒體用戶判斷信息的可信性,營造誠信健康的互聯(lián)網(wǎng)環(huán)境,也有助于提高社交媒體信息輿情監(jiān)控、社交媒體信息引導、社交媒體搜索、社會化推薦等方面的效果。
2 社交媒體信息研究
社交媒體(Social Media)是通過Web2.0技術實現(xiàn)的一類支持用戶自主創(chuàng)造和交換內(nèi)容的媒體,如Twitter、Facebook、Youtube、LinkedIn、Wiki、微博、微信、QQ、論壇、人人網(wǎng)等。自1973年Lipkin、Szpakowski和Felsenstein 3人在美國加州伯克利市建立全球第一個公共電子公告牌系統(tǒng) Community Memory后,BBS以及網(wǎng)絡社區(qū)等早期的社交媒體開始映入人們的眼簾。《2015年全球社會化媒體、數(shù)字和移動業(yè)務數(shù)字統(tǒng)計趨勢》報告表明:全球社交媒體活躍用戶約占全球人口的29%。
2.1 國外研究
社交媒體的相關研究從20世紀80年代開始,在2005年左右開始進入快速發(fā)展階段,發(fā)文量有逐年增加的趨勢。在國際期刊中,發(fā)表社交媒體論文較多的要屬《Computers in Human Behavior》。近兩年,關于社交媒體的國際會議主要有ASONAM、SMP、MISNC、SMAP、SCSM。國外學者研究內(nèi)容主要集中在以下4個方面:
2.1.1 社交媒體信息利用研究
社交媒體在商業(yè)領域、教育領域、公共管理領域等都有廣泛的應用[1]。如在營銷領域,利用社交媒體信息,可以獲知消費者態(tài)度和行為[2],可以獲知客戶交流和推薦對營銷的影響[3-4],可以獲知社交媒體信息對營銷管理功能的影響[5]。
2.1.2 社交媒體信息檢索與信息推薦研究
側重于社交媒體信息檢索與信息推薦方法的研究。社交媒體信息的檢索采用主題模型[6]、社會網(wǎng)絡[7]、本體[8]等檢索方法。比如,Hong和Davison(2010)使用標準主題模型進行社交媒體Twitter信息的檢索。社交媒體信息的推薦采用內(nèi)容推薦[9]、協(xié)同過濾[10]、時序推薦[11]、位置推薦[12]、社會化推薦[13]等方法。比如,Levandoski等(2012)提出位置感知推薦系統(tǒng)(LARS)[12]。
2.1.3 社交媒體信息傳播研究
側重于反映信息傳播傳播規(guī)律的社交媒體信息傳播模型的構建以及通過模型的構建對實際問題進行預測等方面的研究。如Galuba等(2010)通過研究1 500萬URL在不同Twitter用戶之間的300小時傳播,提出了基于內(nèi)容流行度、用戶影響力和傳播速度的線性閾值模型[14]。Adar和Adamic(2005)通過研究信息在博客中傳播的模式和動力學特性,提出用傳染病模型來描繪信息傳播的機理[15]。Asur和Huberman(2010)采用來自的聊天數(shù)據(jù)通過簡單的線性回歸模型預測電影票房的收入[16]。
2.1.4 社交媒體用戶隱私研究
在探討社交媒體用戶隱私現(xiàn)存問題的基礎上,提出了相應的隱私保護方法。如Viswanath等(2010)首先研究Sybil防御的缺陷,在其基礎上探討了替代Sybil防御的方法[17]。Conti等(2011)采用FaceVPSN解決社交媒體用戶隱私問題[18]。
2.2 國內(nèi)研究
國內(nèi)學者的社交媒體研究最早可追溯至20世紀90年代末,但從2005年后起關于社交媒體的論文才逐漸表現(xiàn)出增長態(tài)勢。國內(nèi)研究內(nèi)容主要集中在:
2.2.1 社交媒體信息傳播研究
研究內(nèi)容包括:①社交媒體信息傳播模式研究。如韓佳等(2013)提出了基于改進SIR的在線社交網(wǎng)絡信息傳播模型[19]。姜景等(2015)構建表征謠言信息與辟謠信息傳播機理的Lotka-Volterra競爭模型[20]。②社交媒體信息傳播中存在的問題與對策研究。如閻俊(2015)探討微博傳播存在的問題及原因,并提出了加強微博內(nèi)容管理、增強把關意識、提高微博用戶的媒介素養(yǎng)等對策[21]。③社交媒體信息傳播效果研究。如陳遠和袁艷紅(2012)以新浪微博作為數(shù)據(jù)來源,把信息覆蓋人數(shù)、評論數(shù)、轉發(fā)數(shù)作為微博信息傳播效果的量化指標,從縱橫向兩個角度研究新浪微博信息傳播過程造成的效應[22]。
2.2.2 社交媒體輿情分析與監(jiān)測研究
如張J等(2014)以打砸日系車系列突發(fā)公共事件為實例,探討其在新浪微博和新浪新聞平臺上輿情傳播的特征與規(guī)律[23]。張瑜等(2015)對新浪微博熱門話題“北京單雙號限行常態(tài)化”下的微博進行了數(shù)據(jù)采集,將輿情演化劃分為潛伏、成長、爆發(fā)、衰退、波動、死亡6個階段,并對各階段進行情感分析,為輿情治理提供了支持[24]。唐濤(2014)在分析網(wǎng)絡輿情五要素的基礎上,探討移動互聯(lián)網(wǎng)輿情的新特征,指出面臨的新挑戰(zhàn),并從信息分析、信息篩選、信息引導等方面提出對策[25]。
2.2.3 社交媒體營銷研究
如唐興通(2012)的著作《社會化媒體營銷大趨勢:策略與方法》系統(tǒng)總結了社交媒體營銷,并對眾多社交媒體工具在實際工作中的應用提供了具體的建議[26]。張淼(2014)提出了企業(yè)完善社交媒體營銷策略的“9+3”模式[27]。劉曉燕和鄭維雄(2015)采用社會網(wǎng)絡分析方法研究企業(yè)微博營銷傳播的效果[28]。
3 信息可信度研究
3.1 國外研究
信息可信度(Information Credibility)是指人們對信息可相信程度的認識。它由值得信賴(Trustworthiness)和專業(yè)性(Expertise)兩個關鍵要素組成[29]。信息可信度比較系統(tǒng)的研究始于20世紀50年代的傳播領域。Hovland和同事的工作具有里程碑的意義[30]。信息可信度最初關注的是傳播者的可信度。國外對傳統(tǒng)媒體信息可信度的研究主要是從信源可信度、內(nèi)容可信度、渠道可信度三方面展開的。隨著互聯(lián)網(wǎng)的出現(xiàn),網(wǎng)絡信息可信度的評估被提上了議事日程。研究情況可歸納如下:
3.1.1 網(wǎng)絡信息可信度評估的理論模型
主要有Fogg(2003)的P-I理論模型、Wathen和Burkell(2002)的評判模型、Sundar(2008)的MAIN Model、Hilligoss和Rieh(2008)的統(tǒng)一模型、Metzger(2007)的雙處理模型以及Lucassen等(2013)的3S模型(修訂版)。以上理論模型是由情境、用戶特征、操作性、處理過程這些側面的若干部分構建而成的。
3.1.2 網(wǎng)絡信息可信度研究內(nèi)容
主要有對網(wǎng)絡新聞的可信度研究、對搜索引擎結果的可信度研究以及對維基百科內(nèi)容的可信度研究。比如,Nagura等(2006)通過比較關于同一主題不同網(wǎng)頁的相似度來計算每個網(wǎng)頁的可信度[31]。Yamamoto和Tanaka(2011)利用用戶可信度評判模型對網(wǎng)頁搜索結果進行重新排序,以便從Web搜索結果的列表中用戶可以更高效的找到可信的網(wǎng)頁[32]。Adler等(2008)以文章長度、版本數(shù)量和基于貢獻數(shù)量的作者聲譽建立模型,計算出維基百科文章的可信度[33]。
3.1.3 網(wǎng)絡信息可信度研究方法
主要采用定量研究法。比如,Olteanu等(2013)在調(diào)查網(wǎng)頁的各種特征(文本內(nèi)容、鏈接結構、網(wǎng)頁設計等)的基礎上,經(jīng)過統(tǒng)計分析方法篩選出關鍵的特征,采用監(jiān)督學習算法來推斷網(wǎng)頁內(nèi)容的可信度[34]。與網(wǎng)絡信息可信度有關的典型系統(tǒng)有日本的WISDOM和Honto?Search。
3.1.4 影響力較大的項目和國際會議
影響力較大的項目有互聯(lián)網(wǎng)可信度研究(The Web Credibility Research)項目,影響力較大的國際會議有WICOW(Workshop on Information Credibility on the Web)。
3.2 國內(nèi)研究
1993年的《鑒別虛假信息五法》是國內(nèi)發(fā)表的早期論文。2004年至今,相關研究進入快速發(fā)展期。相對于國外較多研究評估算法和評估系統(tǒng),國內(nèi)研究重點在于定性分析上,大多采用問卷調(diào)查及專家訪談法等進行人工評估。國內(nèi)研究內(nèi)容主要有:
3.2.1 側重于信息可信度影響因素研究
比如,龔思蘭等(2013)針對評論信息的文本內(nèi)容、長度、情感傾向、時效性、者、商家活動等特征,通過問卷調(diào)查方式對大學生消費群體進行在線商品評論信息可信度影響因素實證分析[35]。蔣洪梅(2013)運用理論分析輔以實證研究的方法,從宏觀的社會系統(tǒng)、中觀的政策法規(guī)、微觀的媒介與受眾3個視角分析網(wǎng)絡新聞信息可信度的影響因素[36]。
3.2.2 側重于信息可信度指標體系的構建
比如,胡紅亮(2013)按照信息源、信息加工、信息傳播和信息應用等方面采用德爾菲專家調(diào)查法建立了學術著作可信度的基本評價模型[37]。潘勇和孔棟(2007)基于第三方認證機構的視角,構建了電子商務網(wǎng)站的信用評價指標體系及評價因素集,并建立灰色關聯(lián)信用評估模型[38]。當然,也有少量基于機器學習的信息可信度自動化評估實驗研究,比如,馬偉瑜(2011)提出一種采用改進的PageRank算法評估網(wǎng)頁信息可信度的方法[39]。
4 社交媒體信息可信度評估研究
4.1 國外研究
國外相關研究較早。社交媒體信息可信度的相關研究隨著BBS的出現(xiàn)隨之展開,最早可追溯到20世紀80年代。目前可以說,研究處于繁榮期。國外研究情況可歸納如下:
4.1.1 社交媒體信息可信度評估研究內(nèi)容
研究內(nèi)容主要包括:①不實信息的判斷識別。如Qazvinian等(2011)提取Twitter信息的文本特征、網(wǎng)絡特征和微博元素特征,構建貝葉斯分類器甄別謠言[40]。Zhao等(2015)通過研究查詢帖以便及早識別社交媒體謠言[41]。②話題新聞的可信度評估。如Castillo等(2011)選取了有關用戶特征、文本特征、主題特征、信息傳播特征,采用J48決策樹評估Twitter中話題新聞的可信度[42]。
4.1.2 社交媒體信息可信度評估方法
評估方法主要有監(jiān)督學習[43],統(tǒng)計分析[44],與可信信息來源的相似性比較[45-46],社交網(wǎng)絡的鏈接結構分析與主題模型的利用[47]等。它們主要采用自動評估,具體來說:①選取的特征:選取的特征主要是用戶特征、文本特征、信息傳播特征。比如,西班牙的Castillo和智利的Mendoza、Poblete(2011)選取用戶特征(如注冊時間、粉絲量、好友量),文本特征(如是否包含#標簽、是否包含問號、Tweet中包含的URL數(shù)量、是否轉發(fā)),主題特征(如帶#標簽Tweet的比例、Tweet數(shù)量、Tweet的平均長度、Tweet的平均情感分值、積極情緒或消極情緒的比例),以及信息傳播特征(如傳播樹的深度),采用J48決策樹評估Twitter信息的可信度[42]。②評估的方法:大多通過構建SVM分類器、Bayesian分類器、Decision Tree分類器等方法,并對結果進行分類,以達到評估社交媒體信息可信度的目的。上例Castillo等采用J48決策樹構建分類器,并對結果進行分類,從而評估Twitter信息的可信度[42]。當然,也有通過對結果進行排序的實例,從而達到評估社交媒體信息可信度的目的。比如,Gupta和Kumaraguru(2012)采用Rank-SVM與PRF相結合的方法,按照可信度得分對Twitter信息進行排序[43]。
4.1.3 有較大影響的在研項目與系統(tǒng)
由歐盟資助七國科研人員聯(lián)合攻關的PHEME項目研究的重點是社交媒體信息的真實性,該項目在國際上有較大影響。Jacob Ratkiewicz等(2011)開發(fā)出可實時追蹤Twitter上政治謠言的Truthy系統(tǒng)[48]。Gupta等(2014)、Lorek等(2015)分別開發(fā)出一款可自動評估推文可信度的工具TweetCred、TwitterBOT[49-50]。
4.2 國內(nèi)研究
2007年《博客信息“可信度不亞于紐約時報”?》拉開了國內(nèi)探討社交媒體信息可信度評估的序幕。目前研究還處于發(fā)展的初期。社交媒體信息可信度評估研究主要有:
4.2.1 社交媒體信息可信度影響因素研究
如劉雪艷和閆強(2013)探討政府微博中的熱點事件信息可信度的影響因素[51]。丁科芝(2015)從信息傳播者、渠道、信息內(nèi)容和用戶基本信任觀念4個方面構建社交網(wǎng)絡可信度影響因素模型[52]。薛傳業(yè)等(2015)從信息來源可信度、信息傳播渠道可信度、信息內(nèi)容可信度以及信息評論反饋多維度探討了突發(fā)事件中社交媒體信息可信度的影響因素[53]。
4.2.2 構建社交媒體信息可信度指標體系研究
它大多采用問卷調(diào)查及專家訪談法進行人工評估。屈文建和謝冬(2013)從站點層次、版塊層次、主題層次、內(nèi)容層次4方面,采用模糊綜合信用評估模型對網(wǎng)絡學術論壇信息可信度進行評估[54]。莫祖英等(2013)從微博信息量、信息內(nèi)容質(zhì)量、信息來源質(zhì)量和信息利用情況等方面進行問卷調(diào)查,采用層次分析法構建微博信息質(zhì)量評估模型[55]。當然國內(nèi)也有少量自動化評估的例子。比如,賀剛等(2013)引入關鍵詞分布特征和時間差等新特征,基于SVM算法來預測新浪微博信息是否為謠言[56]。程亮等(2013)提出基于BP神經(jīng)網(wǎng)絡模型及改進其激發(fā)函數(shù),同時引入沖量項,對微博話題在傳播過程中演變?yōu)橹{言進行檢測[57]。路同強(2015)采用半監(jiān)督學習算法檢測微博謠言,但不足之處在于未考慮信息的深層特征[58]。
4.3 存在的問題
對比國內(nèi)外研究情況,可發(fā)現(xiàn)國內(nèi)研究存在如下問題:
4.3.1 研究內(nèi)容
關于社交媒體信息可信度研究,國內(nèi)外目前以微博研究較多。與國外豐富的研究內(nèi)容相比,國內(nèi)在該領域的研究還主要集中于對影響因素以及特征的探討上。
4.3.2 研究方法
國外定量研究較多,很多涉及自動化評估,而國內(nèi)定性研究較多,大多采用問卷調(diào)查法、專家訪談法等進行人工評估。
總之,現(xiàn)有研究大多是針對Twitter等英文社交媒體,其研究成果大多不能直接應用于中文社交媒體。盡管也有少量研究是面向中文社交媒體的,但研究成果零散,還缺乏系統(tǒng)性。另外,在特征選擇上,選擇范圍面較窄,考慮社交媒體深層的隱含特征較少。
5 結 語
為了解決中文社交媒體的可信度評估問題,在吸收前人研究的基礎上[59-63],很有必要對中文社交媒體信息可信度進行系統(tǒng)研究,特別是在參考國外信息可信度評估系統(tǒng)的基礎上,很有必要研制開發(fā)中文社交媒體信息可信度評估系統(tǒng),實現(xiàn)中文社交媒體信息可信度的自動評估。在進行中文社交媒體信息可信度評估中,應注意下列問題:
1)評估要在對信息資源分類的基礎上,對不同的類別采用不同的評估指標體系,以提高評估工作的科學性和合理性。
2)評估既要重視定性評估,也要重視定量評估,尤其是自動化評估。特別是在大數(shù)據(jù)環(huán)境下,應針對評估的實際需求,制定科學的評估方案,選擇恰當?shù)脑u估方法,構建適合評估工作需要的自動化評估系統(tǒng)。
3)評估指標、評估模型的選取以及參數(shù)的訓練,既要考慮研究結果的精確度,又要考慮系統(tǒng)的運算時間。
4)評估模型構建后,不僅要進行實驗室評估,還應進行實際效果評估。
參考文獻
[1]Ngai,E.W.T.,Moon,K.K.,Lam,S.S.,Chin,E.S.K.and Tao,S.S.C..Social media models,technologies,and applications[J].Industrial Management and Data Systems,2015,115(5):769-802.
[2]Gamboa,A.M.and Gonalves,H.M..Customer loyalty through social networks:lessons from Zara on Facebook[J].Business Horizons,2014,57(6):709-717.
[3]Jin,S-A.A.and Phua,J.Following celebrities tweets about brands:the impact of Twitter-based electronic word-of-mouth on consumers source credibility perception,buying intention,and social identification with celebrities[J].Journal of Advertising,2014,43(2):181-195.
[4]Colliander,J.and Dahlén,M.Following the fashionable friend:the power of social media[J].Journal of Advertising Research,2011,51(1):313-320.
[5]Moncrief,W.C.,Marshall,G.W.and Rudd,J.M..Social media and related technology:drivers of change in managing the contemporary sales force[J].Business Horizons,2015,58(1):45-55.
[6]Hong,Liangjie and Davison,B.D..Empirical study of topic modeling in twitter[C]∥Proceedings of the First Workshop on Social Media Analytics(SOMA10).ACM,New York,NY,USA,2010:80-88.
[7]Kleinberg,J.M..Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632.
[8]Tobar,C.M.,Germer,A.S.,Adan-Coello,J.M.,and De Freitas,R.L..Information retrieval in Wikis using an ontology[J].Computational Science and Engineering,2009:826-831.
[9]Kim,Y.and Shim,K.TWILITE:A recommendation system for Twitter using a probabilistic model based on latent Dirichlet allocation[J].Information Systems,2014:59-77.
[10]Ramesh,A.,Anusha J.,Clarence,J.M.T..A novel,generalized recommender system for social media using the collaborative-filtering technique[J].ACM SIGSOFT Software Engineering Notes,2014:1-4.
[11]Zimdars,A.,Chickering,D.M.,and Meek,C.Using Temporal Data for Making Recommendations[C]∥Proceedings of the Seventeenth conference on Uncertainty in artificial intelligence(UAI01),Jack Breese and Daphne Koller(Eds.).Morgan Kaufmann Publishers Inc.,San Francisco,CA,USA,2001:580-588.
[12]Levandoski,J.J.,Sarwat,M.,Eldawy,A.and Mokbel,M.F..LARS:A Location-Aware Recommender System[C]∥IEEE 28th International Conference on Data Engineering,Washington,DC,2012:450-461.
[13]Jamali,M.and Ester,M.Trust Walker:a random walk model for combining trust-based and item-based recommendation[C]∥Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining(KDD09).ACM,New York,NY,USA,2009:397-406.
[14]Galuba W,Aberer K,Chakraborty D,Despotovic Z,Kellerer W.Outtweeting the twitterers-predicting information cascades in microblogs[C]∥Proceedings of the 3rd Workshop on Online Social Networks,USENIX Association,Boston,MA,USA,2010:1-9.
[15]Adar,E.and Adamic,L.A..Tracking Information Epidemics in Blogspace[C]∥Proceedings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence(WI05).IEEE Computer Society,Washington,DC,USA,2005:207-214.
[16]Asur,S and Huberman,B.A..Predicting the Future with Social Media[C]∥2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology(WI-IAT),Toronto,2010:492-499.
[17]Viswanath,B.,Post,A.,Gummadi,K.P.,and Mislove,A.An analysis of social network-based Sybil defenses[J].Acm Sigcomm Computer Communication Review,2010,40(4):363-374.
[18]Conti,M.,Hasani,A.,and Crispo,B.Virtual Private Social Networks[C]∥Proceedings of the 1st ACM Conference on Data and Application Security and Privacy(ACM SIGSAC CODASPY 2011),San Antonio,TX,USA,2011:39-50.
[19]韓佳,肖如良,胡耀,等.在線社交網(wǎng)絡中信息傳播模式的特征分析[J].計算機應用,2013,(1):105-107,111.
[20]姜景,李丁,劉怡君.基于競爭模型的微博謠言信息與辟謠信息傳播機理研究[J].數(shù)學的實踐與認識,2015,(1):182-191.
[21]閻俊.微博傳播的問題與對策研究[D].錦州:渤海大學,2015:1-38.
[22]陳遠,袁艷紅.微博信息傳播效果實證研究[J].信息資源管理學報,2012,(3):28-34.
[23]張,孫霄凌,朱慶華.突發(fā)公共事件輿情傳播特征與規(guī)律研究――以新浪微博和新浪新聞平臺為例[J].情報雜志,2014,(4):90-95.
[24]張瑜,李兵,劉晨.面向主題的微博熱門話題輿情監(jiān)測研究――以“北京單雙號限行常態(tài)化”輿情分析為例[J].中文信息學報,2015,(5):143-151,159.
[25]唐濤.移動互聯(lián)網(wǎng)輿情新特征、新挑戰(zhàn)與對策[J].情報雜志,2014,(3):113-117.
[26]唐興通.社會化媒體營銷大趨勢:策略與方法(第2版)[M].北京:清華大學出版社,2012:1-235.
[27]張淼.社會化媒體在市場營銷中的應用研究[D].北京:首都經(jīng)濟貿(mào)易大學,2014:1-47.
[28]劉曉燕,鄭維雄.企業(yè)社會化媒體營銷傳播的效果分析――以微博擴散網(wǎng)絡為例[J].新聞與傳播研究,2015,(2):89-102,128.
[29]Fogg,B.J.,and Tseng,H.The elements of computer credibility[C]∥Proceedings of the SIGCHI conference on Human Factors in Computing Systems,Pittsburgh,Pennsylvania,USA,1999:80-87.
[30]Rieh,S and Danielson,D.Credibility:A Multidisciplinary Framework[J].Annual Review of Information Science and Technology,2007:307-364.
[31]Nagura,R.,Seki,Y.,Kando,N and Aono,M.A method of rating the credibility of news documents on the web[C]∥Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval(SIGIR06).ACM,New York,NY,USA,2006:683-684.
[48]Ratkiewicz,J.,Conover,M.,Meiss,M.,Gonalves,B.,Patil,S.,F(xiàn)lammini,A.and Menczer,F(xiàn).Truthy:mapping the spread of astroturf in microblog streams[C]∥Proceedings of the 20th international conference companion on World wide web(WWW11).ACM,New York,NY,USA,2011:249-252.
[49]Gupta,A.,Kumaraguru,P.,Castillo,C.,and Meier,P.TweetCred:Real-Time Credibility Assessment of Content on Twitter[C]∥Social Informatics.Springer International Publishing,2014:228-243.
[50]Krzysztof,L.,Jacek,S.W.,Michal,J.L.,and Amit,G.Automated Credibility Assessment on Twitter[J].Computer Science,2015,(2):157-168.
[51]劉雪艷,閆強.政府微博中的熱點事件信息可信度研究[J].北京郵電大學學報:社會科學版,2013,(2):6-12.
[52]丁科芝.社交網(wǎng)絡信息可信度研究[D].武漢:華中師范大學,2015:1-61.
[53]薛傳業(yè),夏志杰,張志花,等.突發(fā)事件中社交媒體信息可信度研究[J].現(xiàn)代情報,2015,(4):12-16.
[54]屈文建,謝冬.網(wǎng)絡學術論壇信息可信度的灰度分析[J].圖書情報知識,2013,(2):112-118.
[55]莫祖英,馬費成,羅毅.微博信息質(zhì)量評價模型構建研究[J].信息資源管理學報,2013,(2):12-18.
[56]賀剛,呂學強,李卓,等.微博謠言識別研究[J].圖書情報工作,2013,(23):114-120.
[57]程亮,邱云飛,孫魯.微博謠言檢測方法研究[J].計算機應用與軟件,2013,(2):226-228,262.
[58]路同強,石冰,閆中敏,等.一種用于微博謠言檢測的半監(jiān)督學習算法[J].計算機應用研究,2016,(3):744-748.
[59]Ginsca,A.L.,Popescu,A.,and Lupu,M.Credibility in Information Retrieval[J].Foundations and Trends in Information Retrieval,2015:355-475.
[60]Lazar,J.Meiselwitz,G.and Feng,J.Understanding Web Credibility:A Synthesis of the Research Literature[M].Now Publishers Inc,2007:1-80.
[61]Zafarani,R.Abbasi,M.A.,and Liu,H.社會媒體挖掘[M].北京:人民郵電出版社,2015:1-240.
(浙江工商大學學院 浙江 杭州 310018)
摘 要: 社交媒體是把雙刃劍,一方面它具有鍛煉大學生情感表達能力、減少現(xiàn)實交流障礙以及節(jié)約交往成本等多方面的積極影響;另一方面,它也在一定程度上疏離了現(xiàn)實同學關系、弱化了現(xiàn)實交往能力、降低了人際信任度。高校輔導員應引導大學生在全面把握社交媒體的基礎上合理利用社交媒體,構建和諧的同學關系。
關鍵詞 :社交媒體;大學生;同學關系;高校輔導員
中圖分類號:G641 文獻標識碼:A doi:10.3969/j.issn.1665-2272.2015.14.044
中國互聯(lián)網(wǎng)絡信息中心的《第35次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2014年12月,學生群體在中國網(wǎng)民中占比23.8%,在所有群體的互聯(lián)網(wǎng)普及率中居于高位。大學生思維敏銳,接收新事物能力強,更是處于技術創(chuàng)新浪潮的最前端,社交媒體也因不斷地發(fā)展創(chuàng)新得到大學生的青睞。社交媒體極大地豐富和拓展了大學生人際交往的方式和內(nèi)容,但它的負面效應不容忽視。正確引導大學生使用社交媒體,構建和諧同學關系成為高校輔導員的重要任務。
1 社交媒體概述
社交媒體是建立在萬維網(wǎng)的技術資源基礎上,允許用戶創(chuàng)建和交換各方面信息的應用程序。其典型代表是騰訊QQ、新浪微博、微信、人人網(wǎng)等。當今時代,越來越多的大學生熱衷于社交媒體,花費在社交媒體上的時間越來越多,這與社交媒體的以下四方面特征密不可分。
1.1 交互性與共享性
馬克思認為人的本質(zhì)是一切社會關系的總和,每個人都有與他人溝通交流的心理需求。通過社交媒體,用戶可以隨時保持溝通、給別人發(fā)表評論,還可以將所見所聞第一時間出去與其他用戶共同分享。這種互動與共享能夠使用戶結交來自世界各地的朋友,拓展人際網(wǎng)絡,滿足現(xiàn)實生活中不能滿足的交往、情感需求。
1.2 開放性與平等性
當今大學生開放程度高,個體意識強,平等觀念深。社交媒體使交往不再受時間、空間等因素的限制,加之有些社交媒體為匿名登陸,使得信息與獲取的自由性進一步增強,便于大學生找到自己的“圈子”發(fā)展興趣。這樣,社交媒體打破傳統(tǒng)媒體的精英運作模式,原先傳播者與受眾的失衡關系得到平衡。因此,社交媒體的開放是基于所有人的開放,它為每個人提供了更為公平的機會,開放和平等成為社交媒體發(fā)展的動力和源泉。
1.3 娛樂性與個性化
冰心曾說過,娛樂至少與工作有同等的價值,或者說娛樂是工作的一部分。當今社會,娛樂必不可少,絕大部分社交媒體都有供用戶來娛樂消遣的板塊,如QQ游戲、QQ寵物、QQ空間日志,以及微博、微信等媒體提供的娛樂圖片、視頻以及各種熱門話題;社交媒體大都具有強烈的個性化色彩,具體表現(xiàn)在主頁裝飾、頁面排版以及聊天背景等細節(jié)設置上,用戶可以以多種形式、轉載、評論信息。
1.4 融合性與“碎片化”
社交媒體是報紙、雜志、電視、廣播等媒介融合的有效平臺,兼容文字、圖片、動畫、聲音、影像等多種傳播形態(tài),通過不同的組合方式來表述、發(fā)送信息,這能夠滿足不同用戶的個性化需求。同時,許多社交媒體要求發(fā)送內(nèi)容簡短精煉,信息的這種碎片化傾向使大學生能夠隨時隨地學習新知識,充分利用零散時間,如微電影、微視頻等“微”事物廣受大學生的青睞。
2 社交媒體對大學同學關系的影響
2.1 社交媒體對大學同學關系的正面影響
(1)有利于鍛煉大學生的情感表達能力。《詩經(jīng)》中傳唱千載的“嚶其鳴矣,求其友聲。相比鳥矣,猶求友聲”,傳遞出每個人內(nèi)心深處對與人交往、表達的渴望。然而,有些大學生因不善交際或害羞、自卑、社交恐懼等心理障礙的禁錮,在現(xiàn)實生活中不善于同別人互動交流,無法充分表達自己的情感,甚至把自己孤立起來,阻礙了正常的同學交往。社交媒體具有匿名性、開放性、平等性等特征,這為大學生提供了充足的鍛煉機會,更好地滿足大學生情感的表達與傳遞,使大學生在現(xiàn)實生活中溝通更自由。
(2)有利于減少大學生人際交往的客觀障礙。大學生來自四面八方,每個人生活習慣不同,家庭背景等亦存在差異,交流起來很容易出現(xiàn)誤解甚至產(chǎn)生矛盾。科技的飛速發(fā)展實現(xiàn)了麥克盧漢“地球村”的預言,社交媒體的出現(xiàn)打破了傳統(tǒng)交往基于血緣、地緣的格局。通過社交媒體,大學生有機會充分接觸不同地域的道德風俗習慣、倫理規(guī)范以及思想觀念等,能開闊眼界,更好地了解各地域同學的生活習慣,進而使大學生增強對交流信息的理解,減少交流過程中的摩擦和碰撞,交往起來更得心應手。
(3)有利于大學生節(jié)約交往成本。高校班級概念逐漸淡化,同班同學日常見面機會逐漸減少,毋庸置疑,同學間要經(jīng)常性的互動交流才能保持同學關系的穩(wěn)定性和持久性。然而,專注于現(xiàn)實交往成本過高,網(wǎng)絡交往是現(xiàn)實交往的重要補充,社交媒體成為人際聯(lián)絡的好幫手。同學間可以通過網(wǎng)絡保持聯(lián)系。一方面,大學生無需話費只需要WIFI或者流量就可以使用社交媒體來維持人際關系,節(jié)約了經(jīng)濟成本;另一方面,使用社交媒體只需動動手指就能關注對方動態(tài),及時掌握最新資訊,社交媒體使人際交往變得更加方便和快捷,節(jié)省了大量的時間和精力。
(4)有利于緩解大學生的日常壓力。大學生在校內(nèi)會面臨來自生活、學習上的各種壓力,面對這些壓力產(chǎn)生的消極情緒,有些大學生往往得不到社會支持系統(tǒng)(家長、老師等)的慰藉,轉而把目光投向社交媒體。社交媒體具有開放性、平等性以及娛樂性等特征,大學生可以在網(wǎng)上痛痛快快地打游戲、開開心心地看視頻、隨心所欲地聊天……他們就像一條自由自在的魚兒遨游在大海里。這樣,不良情緒就能隨著手指擺動而“煙消云散”,積極情緒便會“撲面而來”,這種積極情緒有益于和諧同學關系的構建與維護。
2.2 社交媒體對大學同學關系的負面影響
(1)疏離現(xiàn)實同學關系。社交媒體內(nèi)在的交互性、開放性、自由性、娛樂性等特征,使部分大學生瀏覽各大社交網(wǎng)站成為一種習慣,以至于吃飯走路甚至在同學聚餐等公共活動中都要時不時聊QQ、玩微信、刷微博,有些人甚至形成了社交媒體依賴。結果,大學生交往有廣度而缺乏深度,缺乏心靈溝通,增加了內(nèi)心的孤獨感。寢室同學關系更是如此,馬斯洛需求層次理論認為歸屬感是人的基本需求,同住一個屋檐下的室友很少有機會靜下心來真誠地溝通,他們把歸屬感轉移到各種虛擬網(wǎng)絡社區(qū),導致同學情感上趨于冷漠、疏離,以至有人畢業(yè)時要“感謝室友的不殺之恩”。
(2)弱化現(xiàn)實交往能力。在網(wǎng)絡上扮演好角色比在生活中容易,開放、平等、自由的社交媒體使大學生在交往中更加具有隨意性。大學生在現(xiàn)實生活中交往要受到外部環(huán)境,個人角色及言語、聲調(diào)、表情、姿勢、服裝等太多非語言信息的束縛,長時間的網(wǎng)絡交往使他們難以適應二者間的角色轉換,以至于對現(xiàn)實交往力不從心。他們找機會逃離現(xiàn)實交往,向網(wǎng)絡尋求安慰,把更多的時間花在社交媒體上。
(3)降低人際信任度。社交媒體具有匿名性、開放性的特點。這導致網(wǎng)上道德約束力不強,網(wǎng)民可以在這個虛擬的空間中自由交流,這給那些不法行為帶來了施展機會,網(wǎng)上虛假信息遍布,道德失范現(xiàn)象嚴重,網(wǎng)絡詐騙、網(wǎng)絡犯罪等時有發(fā)生。大學生社會經(jīng)驗、人生閱歷不足,在虛擬的網(wǎng)絡世界很容易受騙,一旦被騙,就會對他們正在成長的心靈產(chǎn)生巨大影響,他們會本能地對周圍人失去信任,防止悲劇再次發(fā)生;即使沒有被騙經(jīng)歷,經(jīng)常看到網(wǎng)上曝光的龐雜負面的新聞,亦會把社會上的不信任帶到現(xiàn)實生活中,導致同學之間的信任度降低,使人際關系蒙上陰影。
3 合理利用社交媒體,構建和諧的大學同學關系
社交媒體給大學同學關系帶來的影響有利有弊,是利大于弊還是弊大于利?問題的關鍵是能否合理運用社交媒體。合理用之,利大也;過度用之,弊大也。
3.1 利用社交媒體開展教育工作
大學生使用社交媒體的潮流勢不可擋,輔導員也應該積極順應這一潮流,使之為構建和諧同學關系服務。因此,輔導員應該熟練掌握主流社交媒體,盡可能與大學生成為好友,及時掌握他們的思想動態(tài),減少他們?nèi)穗H交往中的困惑;在上網(wǎng)交流的過程中向大學生提供一些關于人際交往的方法、技巧以及心理健康方面的知識,為現(xiàn)實人際交往做好理論鋪墊;同時,輔導員還應經(jīng)常性地在主流社交媒體上分享一些集思想性、趣味性、創(chuàng)新性于一體的優(yōu)秀資源,讓大學生充分吸收正能量。
3.2 幫助大學生提高社交媒體素養(yǎng)
社交媒體對同學關系的消極影響反映出大學生的社交媒體素養(yǎng)有待提高,輔導員要幫助大學生提高社交媒體素養(yǎng),就應該教育大學生:全面、準確地認識和對待社交媒體——既要認識到它可以鍛煉情感表達能力、減少交流障礙等有利的一面,又要清醒地認識到它消極的一面,使之為我所用;從我做起,促進網(wǎng)絡文明化、道德化——在提高防范意識、提高信息批判能力以及自覺抵制不良信息的影響的同時,還要自覺傳播正能量(比如,與他人聊天時聊一些高雅的、有品位的話題,使聊有所得);合理控制上網(wǎng)時間——大學生要加強自律,抵制社交媒體的誘惑,把更多的時間、精力用于現(xiàn)實交往和其他更有意義的事情上。
3.3 組織豐富多彩的校園活動
現(xiàn)實交往是“本”,網(wǎng)絡交往是“末”,要防止大學生本末倒置或者舍本逐末,輔導員應該充分發(fā)揮大學生社團的重要作用,積極加強線下工作,經(jīng)常性地開展為大學生喜聞樂見的校園活動,如讀書月活動、體育周活動、辯論賽、演講比賽、節(jié)日晚會等。這不但能夠減少大學生的上網(wǎng)時間、發(fā)展業(yè)余愛好找到自己的“圈子”,而且能夠提供廣闊的平臺為大學生鍛煉現(xiàn)實人際交往能力,提高交際水平。
3.4 重視構建和諧寢室同學關系
清華大學朱令案、馬加爵案以及復旦大學投毒案等幾起惡性殺人事件都是發(fā)生在寢室內(nèi),寢室人際關系原本就存在問題,社交媒體出現(xiàn)后更使某些寢室人際關系雪上加霜。輔導員應有針對性的加強和諧的寢室同學關系的構建,可行性路徑為:鼓勵學生設計健康豐富的寢室文化;定期進入學生宿舍了解大學生的學習、生活狀況;多開展以寢室為單位的活動。這樣能更好地增強室友間的默契和凝聚力,讓寢室成為情感溝通的場所,成為大學生的“心靈港灣”。
4 結語
社交媒體以其鮮明的特征成為大學生使用的主流媒體,它給大學生帶來了平等、自由,卻使他們喪失了安全感、歸屬感。輔導員應在倡導、鼓勵大學生現(xiàn)實交往的基礎上引導他們合理利用社交媒體。這樣,大學生才能找到心靈的最佳歸屬,使那顆冰冷、孤獨的心得到縷縷溫情與安撫;才能在共同的學習和生活中形成互相關心、相互幫助、互相促進、良性競爭的一種積極狀態(tài);才能在美好而短暫的青春年華里充分吸收營養(yǎng)、綻放光芒。
參考文獻
1 巴巴拉·M·紐曼.社交媒體影響青少年同伴關系:友誼、孤獨感和歸屬感[J].中國青年研究,2014(2)
2 馬克思,恩格斯.馬克思恩格斯選集[M](第一卷).北京:人民出版社,1995
3 嚴三九.新媒體概論[M].北京:化學工業(yè)出版社,2011
4 王曉霞.現(xiàn)實與虛擬社會人際關系的文化研究[M].北京:中國社會科學出版社,2010
關鍵詞:語義標注 社交媒體 信息抽取
中圖分類號: TP311 文獻標識碼: A 文章編號: 1003-6938(2013)05-0095-05
1 引言
社交媒體的數(shù)據(jù)文本短、噪聲大,多為對話,數(shù)據(jù)實時發(fā)生,需要基于時間和上下文的即時分析處理。如何實時、有效和經(jīng)濟地去訪問和集成這些多語言的數(shù)據(jù),是一個嚴峻挑戰(zhàn),目前的各種技術在準確性、可伸縮性和便攜性方面都有所欠缺。
語義標注把語義模型和自然語言結合在了一起,可以看作是本體和非結構化或半結構化文檔之間的關聯(lián)進行雙向動態(tài)的生成過程,從技術的角度來講,語義標注是通過參照在本體里的URI的元數(shù)據(jù), 從本體(類、實例、屬性或者關系等)里標注在文本里出現(xiàn)的概念。使用文本里出現(xiàn)的新的實例去增強本體的方法也稱為本體填充。
社交媒體的自動語義標引可以用于基于語義的搜索、瀏覽、過濾、推薦、可視化分析用戶以及用戶之間的社交網(wǎng)絡和在線行為的語義模型建立,還有其他的應用場合例如知識管理、競爭情報、客戶關系管理、電子政務、電子商務等。
目前的語義標注技術主要是針對新聞文章或者其他較為正式、篇幅較長的Web內(nèi)容,由于社交媒體自身具有內(nèi)容較短、噪聲大、跟時間相關、用戶產(chǎn)生內(nèi)容等這些鮮明的特點,給語義標注技術的發(fā)展帶來新的挑戰(zhàn)。
2 社交媒體語義標注的方式
語義標注可以采用手工、自動化或半自動化等多種方式進行。
Passant等[1]提出了語義微博框架模型,以便用戶給博文手動的添加機器可讀的語義,該框架也支持通過主題標簽與關聯(lián)開放數(shù)據(jù)進行連接。Hepp等[2]提出了一個新的對微博進行手工語義標注句法,能映射成RDF語句,該句法支持標簽、本體屬性,例如FOAF和在同一個微博里多個RDF語句之間關系。盡管手工語義標注具有一定的價值,但是每天騰訊、新浪等百萬條微博的涌現(xiàn),亟需自動的語義標引方法。
信息抽取,作為一個自然語言分析的方式,日益成為在非結構化文本和在本體中的規(guī)范化知識之間建起溝通橋梁的關鍵技術。基于本體的信息抽取就是適用于語義標注的任務,傳統(tǒng)的信息抽取和基于本體的信息抽取的一個顯著區(qū)別就是規(guī)范化的本體作為系統(tǒng)的輸入和輸出,有些信息抽取系統(tǒng)只是把系統(tǒng)輸出和本體做一個映射,這些系統(tǒng)嚴格來講,應該稱為面向本體的系統(tǒng)。基于本體的信息抽取另一個顯著的特點是它不僅僅發(fā)現(xiàn)被抽取的實體的類型,而且還要把它跟目標知識庫里的關于它的語義描述關聯(lián)起來,通常用一個URI方式識別它,在抽取過程中需要在文檔內(nèi)和文檔間進行命名實體、術語、關系等自動識別和共指消解。
關聯(lián)開放數(shù)據(jù)資源,例如DBpedia,YAGO和Freebase等已經(jīng)成為語義標注本體知識的關鍵來源,也作為用來消歧的目標本體知識庫,他們提供了交叉引用、領域無關的數(shù)萬條類和關系以及數(shù)百萬條的實例,一個關聯(lián)、互補的代名詞的資源集合,對應于維基百科的條目和其他外部數(shù)據(jù)的概念和實例,豐富的類層次用于細粒度分類命名實體,而關于數(shù)百萬實例和對應維基百科條目的鏈接的知識也是基于本體抽取系統(tǒng)的一個特點。
3 社交媒體語義標注的主要方法
3.1 關鍵短語抽取
自動抽取出的關鍵句可以表示出一個文檔或文檔集的主題,但不能有效的表達論點或者所有的觀點,關鍵短語抽取因此被認為是一種淺表知識抽取,它也作為降維手段,允許系統(tǒng)處理較小集合的重要的術語而不是全文,用于上下文的語義標注和索引。
一些關鍵詞語方法利用了術語共現(xiàn)形成術語的圖,邊為一對術語共現(xiàn)的距離,給頂點分配一定的權重,W Wu等研究表明這一類的術語抽取方法相對依賴于文本模型的方法,在Twitter數(shù)據(jù)上表現(xiàn)更優(yōu)。這些基于圖的方法在從Twitter中抽取關鍵短語之所以取得了良好的效果,原因在于這個領域包括了大量的冗余,有利于形成關鍵詞摘要。但主題的多樣性增加了抽取一系列相關和準確的關鍵詞的難度,Xin等[3]在關鍵詞組抽取中結合了主題建模來解決該問題。
當前的相關研究主要是使用該方法來產(chǎn)生新的標簽,Qu等[4]在基于詞性標簽的基礎上,從n-gram產(chǎn)生候選的關鍵短語,然后使用一個監(jiān)督邏輯回歸分類器進行過濾。該方法還可以和分眾分類法進一步結合,產(chǎn)生標簽簽名,例如把分眾分類法中的每一個標簽和加權的、語義相關的術語聯(lián)系起來,針對新的博文和帖子,進行比較和排序這些標簽,從而推薦一些最相關的標簽。
3.2 社交媒體中的基于本體的實體識別
基于本體的實體識別一般分為兩個步驟:實體識別和實體聯(lián)接,實體識別階段主要根據(jù)一個本體識別出文本中出現(xiàn)的所有的類和實例,而實體聯(lián)接階段則是使用文本中的概念信息,結合從本體中的知識,來選擇一個正確的URI。
3.2.1 基于維基百科的方法
目前實體識別和聯(lián)接的主要研究都是使用維基百科作為龐大的、免費的、人工標引的訓練語料庫。典型的目標知識庫例如DBpedia和YAGO等都是來源于維基百科,提供了一個實體URI和相應的維基百科頁面的直接映射。
基于實體消歧的方法主要是使用一個字典,里面有每個實體URI的標簽,包括維基百科的實體頁面,重定向(用于同義詞和縮寫),消歧頁(對具有相同名稱的多個實體)和鏈接到維基百科頁面時使用的錨定文本。這本詞典用于識別所有候選實體的URI,然后把這些候選的URI進行排序,給出一個置信分數(shù)。如果在目標知識庫里面,沒有匹配的實體,就返回空值。
一個廣泛使用的基于維基百科的語義標注系統(tǒng)是DBpedia Spotlight[5],這是一個免費的可定制的Web系統(tǒng),它通過DBpedia的URIs標注文本,它的目標是DBpedia本體,包含了三十多個頂級類和272個類,通過顯式地列出他們或一個SPARQL查詢,來限制哪些類(或者它的子類)用于命名實體識別,這個算法首先通過查找一個來源于維基百科的URI詞匯字典挑選候選的實體,然后使用向量空間模型對URI進行排序,每一個DBpedia資源都和一個文檔相關聯(lián),構建的每一段文字里都使用到在維基百科里的概念。
LINDEN框架[6]在基于維基百科的信息外,還充分利用了YAGO里更豐富的語義信息,這種方法很大程度上依賴于Wikipedia-Miner工具,該工具用來分析有歧義的實體的上下文和發(fā)現(xiàn)出現(xiàn)在維基百科里的概念。在TACKBP2009數(shù)據(jù)集上的評測表明LINDEN超過了所有的只基于維基百科的系統(tǒng),但目前LINDEN還沒有和DBpedia Spotlight在同一數(shù)據(jù)集進行測試比較。
3.2.2 面向社交化媒體的方法
命名實體識別方法一般都是在較長、較常規(guī)的文本上進行訓練,當作用在較短和更多噪聲的社交媒體內(nèi)容上的時候,效果較差。面向社交媒體的方法融合了語言和社交媒體專門的特性,盡管每個博文提供了很少的內(nèi)容,但可以從用戶資料、社交網(wǎng)絡和回復中發(fā)現(xiàn)更多的附加信息。
Ritter 等[7]通過使用Freebase作為一個大規(guī)模已知實體來源,提出了命名實體分類的問題,如果沒有考慮到上下文,直接進行實體查找和類型分配,只能得到38%的F值,其中35%的實體是歧義的,具有多個類型,而30%的實體沒有在Freebase中出現(xiàn)過。如果使用被標記的主題模型,考慮到每個實體字符串出現(xiàn)的上下文和在Freebase類型上的分布,命名實體分類的F值提高到了66%。
Ireson 等[8]研究了在Flickr網(wǎng)站上命名標簽的地名消歧問題。這個方法是在Yahoo! GeoPlanet語義數(shù)據(jù)庫的基礎上,為每一個地點實例都提供一個URI,與一個相關地點的分類,這個標簽消歧的方法利用了其他分配給照片的標簽,用戶上下文(一個用戶分配給他所有照片的標簽)和擴展用戶上下文(考慮到用戶聯(lián)系人的標簽),這種基于社會化網(wǎng)絡上下文的使用顯著地提高了整體消歧的準確性。
另一個附加和隱藏的語義是微博里的主題標簽,Laniado 等[9]詳細調(diào)查了三千六百多萬條微博里的主題標簽語義,使用了四種度量指標:使用頻率、使用的一致性、穩(wěn)定性和專門性。這些度量用來決定哪些主題標簽可以被用作標示符,連接到Freebase URIs上,通過從分眾完成的在線詞匯表,添加主題標簽的定義,主題標簽也可以作為語義信息的附加來源。Mendes等[10]通過簡單地在DBpedia里查找,而沒有進一步的消歧就完成了語義標注。用戶相關的屬性和社會關系都在FOAF里了,而語義標注通過MOAT本體來實現(xiàn)。
Gruhl等[11]關注了語義標注的消歧元素,審視了處理高度歧義的情況,例如歌曲音樂專輯的名稱。他們提出的方法首先限制用于產(chǎn)生候選的MusicBrainZ本體的部分,通過過濾掉所有在給定文本里沒有提到的音樂家的信息,然后運用詞性標注和名詞詞組組塊,把這些信息作為支持向量機分類器的輸入,在此基礎上進行消歧。這個方法對關于三位音樂家的MySpace帖子的語料集做了測試,盡管本體很大,但有關文本很快被找到,具有較高的效能。
3.2.3 商業(yè)化實體識別服務
現(xiàn)有大量的商業(yè)在線實體識別服務用實體標注文檔,給文檔指派關聯(lián)數(shù)據(jù)URIs,NERD在線工具可以輕松地在用戶上傳的數(shù)據(jù)集上進行比較,還可以整合他們的結果,把結果映射到關聯(lián)開放數(shù)據(jù)云上。
Zemanta[12] 是一個在線標注工具,最初專門用于博客和郵件內(nèi)容,幫助用戶通過推薦來插入標簽和鏈接。Open Calais[13]是另外一個語義標注的商業(yè)化Web服務,Abel等利用它在新聞相關的微博里識別命名實體,目標實體一般是地理位置、公司、人員、地址或聯(lián)系電話等,而被抽取出來的事件和事實一般涉及以上的實體,例如公司競爭者、聯(lián)盟等。實體標注包括URL,允許通過http訪問在關聯(lián)數(shù)據(jù)中的這個實體的更多信息。目前OpenCalais連接到8個關聯(lián)數(shù)據(jù)集上,包括它自帶的數(shù)據(jù)庫,如DBpedia,Wikipedia,IMDB等,廣泛涉及到了本體中的實體類別。Calais的主要局限性是專有的性質(zhì)問題,例如用戶通過Web服務發(fā)送文檔來進行標注,接受標注的結果,但是他們不能給Calais一個不同的本體來進行標注,或者定制實體抽取的方式。
3.3 情感監(jiān)測和觀點分析
自動情感監(jiān)測技術主要分為基于詞匯的方法和機器學習的方法,基于詞匯的方法主要依賴于一個情感詞匯庫,包含了已知和預先收錄的情感術語,而機器學習的方法利用淺表語法或語言的特性。大多數(shù)情感和觀點分析方法沒有或者很少利用到語義,例如把博文分為積極、消極或中性情感,是建立在n-grams和詞性信息的技術上。這些方法會導致數(shù)據(jù)量少的問題。Saif等[14]證明了使用語義概念代替單詞能顯著提高極性分類的準確性,這個方法使用了AlchemyAPI來進行語義標注,它包括了30個實體類,絕大部分是人物、公司、城市和組織等。這個方法在斯坦福Twitter情感數(shù)據(jù)集上作了評估測試,性能超過了其他沒有使用語義的現(xiàn)有方法。語義標注還可以用來完成挑戰(zhàn)性的觀點挖掘任務,結合來源于WordNet等上的情感詞匯,使用基于規(guī)則的實體識別器來識別出微博里的人物、政治團體和所持觀點,然后進行語義分析,使用模式來產(chǎn)生三語組,表示出觀點持有者和投票意愿。
3.4 跨媒體聯(lián)接
由于微博內(nèi)容比較短,如果不參考外部資源的上下文內(nèi)容,很難被理解,所以需要跨媒體的自動聯(lián)接。Abel等把微博和當前的新聞故事連接在一起改善微博的語義標注的準確性,探索了一些聯(lián)接策略:利用出現(xiàn)在微博里的URL,微博和新聞文章的TF-IDF相似性,主題標簽和基于實體的相似性(例如OpenCalais識別出來的語義實體和主題)等。Hubmann-Haidvogel等[15]使用在線新聞從Twitter,YouTube和Facebook上匯總關于社交媒體關于氣候變化的內(nèi)容。
4 社會媒體的語義標注改進途徑
目前的社交媒體語義標注方法有很多的局限性,很多方法就像關鍵詞和主題抽取一樣,只能解決淺表問題,而基于本體的實體和事件識別并沒有取得在較長的文檔上那樣高的準確度和召回率。語義標注方法只適用于它們訓練和評估的數(shù)據(jù),在社交媒體標準數(shù)據(jù)集的訓練算法也是有限的,使用命名實體類型和事件標注的微博條數(shù)一般都小于1000條,需要來自不同社交媒體類型更大的共享評測語料集,如果通過傳統(tǒng)人工的方法進行,則不可能完成。
4.1 眾包
一種改善自動標注的途徑是進行眾包,ZenCrowd[16]系統(tǒng)把大規(guī)模的實體和在Amazon Mechanical Turk上的微任務,能夠自動連接到LOD云上的文字部分不交給標引員,只是在難以解決的情況下才咨詢標引員,這樣顯著提高了標注結果。歐盟FP7資助的Xlike項目[17]也嘗試眾包去解決社交媒體廣泛使用的非正式語言的非規(guī)則性,提高標注的準確性。Gate Teamware[18]是一個基于網(wǎng)絡的協(xié)同標注工具,支持分布式團體工作,可以為非專業(yè)的標引員進行個性化定制使用。
4.2 利用Web of Data上的海量知識
另一種改善社交媒體語義標注的途徑是更好的利用Web of Data上的海量知識,目前大部分局限在維基百科、DBpedia和YAGO上,使用網(wǎng)絡數(shù)據(jù)的一大問題是,由于常用詞和停用詞的大量使用等造成的歧義,需要自動化的領域分類的步驟,確保特定領域的LOD(關聯(lián)開放數(shù)據(jù))資源被用于標引相關領域內(nèi)的社交媒體。使用網(wǎng)絡數(shù)據(jù)面臨的第二大問題是健壯性和可伸縮性,在面臨LOD資源的噪聲知識時,在處理有噪音的、語法不規(guī)則的語言的時候,能保持一定的健壯性,考慮到Web of Data的規(guī)模,設計基于本體的算法時,算法要在維持較高的計算水平的同時,又能有效的加載和查詢這些大規(guī)模的知識庫。最后一個有效利用網(wǎng)絡數(shù)據(jù)資源的障礙是相當有限的可用詞匯信息。除了維基百科上的資源,其他的詞匯信息大多數(shù)局限在RDF標簽。這就限制了他們在基于本體的信息抽取和語義標注上的使用。近期很多學者都專注于利用協(xié)作完成的維基學科去建設跨語言詞匯資源。它包含了很多外來詞和新詞,并且不斷被貢獻者社區(qū)進行更新,可以在分析用戶內(nèi)容時作參考使用。針對英語和德語,目前正在進行的工作有建立UBY[19],這是一個綜合的、大規(guī)模、語義-詞匯資源,它基于維基百科、WordNet和其他的LOD資源。有些研究還關注基于語言的本體建設,提出把語言信息和本體元素進行關聯(lián)的模型,這些都為跨語言語義標注系統(tǒng)的建設進行了有益的嘗試。
5 結語
盡管社交媒體的語義標注技術還有很多的改進空間,但語義標注的結果已經(jīng)被應用在從社交媒體流的隱形信息中自動獲得用戶和社交網(wǎng)絡的模型的方法上。為了更好的挖掘出隱含語義信息,處理多噪聲的動態(tài)社交媒體流,我們需要探索更加穩(wěn)定、準確的大規(guī)模實體和事件識別方法,需要進一步細化意見挖掘算法用于目標識別,解決時間波動性問題,對沖突意見的探測和建模以及意見匯總。
參考文獻:
[1]A. Passant, J. G. Breslin, and S. Decker. Rethinking microblogging:open, distributed, semantic[C]. Proceedings of the 10th International Conference on Web Engineering,2010:263-277.
[2]M. Hepp. HyperTwitter: Collaborative knowledge engineering via Twitter messages[C].Knowledge Engineering and Management by the Masses-17th International Confe
rence EKAW 2010,2010:451-461.
[3]W. Xin, Z. Jing, J. Jing, H. Yang, S. Palakorn, W. X. Zhao,J. Jiang, J. He, Y. Song, P. Achananuparp, E. P. Lim, andX. Li. Topical keyphrase extraction from Twitter[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, HLT ’11,2011:379-388.
[4]L. Qu, C. Müller, and I. Gurevych. Using tag semantic network for keyphrase extraction in blogs. In Proceedings of the 17th Conference on Information and Knowledge Management,2008:1381-1382.
[5]Dbpedia Spotlight[EB/OL].[2013-06-02].http:///projects/dbp-spotlight/.
[6]W. Shen, J. Wang, P. Luo, and M. Wang. LINDEN: Linking named entities with knowledge base via semantic knowledge[C].Proceedings of the 21st Conference on World Wide Web,2012:449-458.
[7]A. Ritter, S. Clark, Mausam, and O. Etzioni. Named entity recognition in tweets: An experimental study[C]. Proc. of Empirical Methods for Natural Language Processing (EMNLP), Edinburgh, UK, 2011.
[8]N. Ireson and F. Ciravegna. Toponym resolution in social media[C]. Proceedings of the 9th International Semantic Web Conference (ISWC),2010:370-385.
[9]David Laniado and Peter Mika. Making sense of Twitter[C].International Semantic Web Conference(1),2010:470-485.
[10]P. N. Mendes, A. Passant, P. Kapanipathi, and A. P. Sheth. Linked open social signals[C]. Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2010:224-231.
[11]D. Gruhl, M. Nagarajan, J. Pieper, C. Robson, and A. Sheth. Context and Domain Knowledge Enhanced Entity Spotting in Informal Text[C]. Proceedings of the 8th International Semantic Web Conference (ISWC’2009), 2009.
[12]Zemanta[EB/OL]. [2013-06-03]. http://.
[13]Opencalais[EB/OL].[2013-06-03]. http:///.
[14]H. Saif, Y. He, and H. Alani. Alleviating data sparsity for Twitter sentiment analysis[C]. Proceedings of the #
MSM2012 Workshop, CEUR,2012.
[15]A.Hubmann-Haidvogel,A. M. P. Brasoveanu, A. Scharl, M. Sabou, and S. Gindl. Visualizing contextual and dynamic features of micropost streams[C].Proceedings of the #MSM2012 Workshop, CEUR, 2012.
[16]G. Demartini, D. E. Difallah, and P. Cudré-Mauroux. Zen-Crowd: Leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking[C].Proceedings of the 21st Conference on World Wide Web, 2012:469-478.
[17]Xlike[EB/OL].[2012-06-05]. http:///.
[18]Kaling Bontcheva, Hamish Cunningham, Ian Roberts, Angus Roberts, Valentin Tablan, Niraj Aswani, and Genevieve Gorrell. GATE Teamware: A Web-based, Collaborative Text Annotation Framework[J/OL]. [2013
-06-03].http://eprints.whiterose.ac.uk/75937/.