前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇網絡輿情工作總結范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
根據文件精神,XX街道深入學習落實文件要求,開展了網絡環境整治專行動,現將工作開展以來情況總結如下:
一、領導重視,落實責任。XX街道黨工委對本次百日攻堅活動高度重視,成立由XX同志為組長的領導小組,制定了工作計劃,召開了多次工作會議,并要求所轄各社區成立工作小組,由社區書記為第一責任人開展工作,切實落實工作責任,領導責任。
二、開展網絡信息生態整治活動。根據上級文件精神,XX街道在轄區內開展了XX網絡生態整治專項行動,針對網絡輿情和安全風險點制定了《網絡輿情應急處置預案》、《網絡安全風險防控預案》從而建立起來一套行之有效的網絡輿情和安全風險監測匯報體系,并以“知法守法、依法上網、理性上網”為主題開展宣傳活動,通過線上線下聯動的方式,充分利用新媒體的優勢宣傳文明上網觀。同時,積極開展轄區內網絡從業者和公眾號所有者摸排工作,依據上級數據和摸排中發現的新情況對轄區內網絡從業者和公眾號所有者建立臺賬,更好的開展日常管理和培訓工作。
三、積極開展網絡安全工作。針對機關工作中的涉密情況,XX街道制定了相關規定,嚴格涉密電腦和涉密信息的使用和傳輸制度,要求涉密電腦專人負責,涉密信息不得網絡傳輸,嚴格內、外網電腦使用制度,切實落實好涉密信息保密工作。
一、2019年人才工作目標完成情況:
1、加強人才工作典型宣傳。研究制定了《**區人才工作宣傳方案》,充分利用微信公眾號,全面反映我區各單位部門的工作動態、進展成效、典型經驗,并擇優向市級主流媒體、省級以上權威媒體進行推薦。全年累計在各級各類媒體發稿286余篇,其中《**區雙創大街人才引領與平臺集聚成效明顯》、《金融中心玩起科技孵化年內將有20多個北京項目入駐》等特色稿件被廣泛轉載。
2、做好重點活動專題報道。以5月份**區人才工作宣傳月活動為契機,組織新聞、直播50分、勞動日報、新聞網等市級媒體深入**一線集中采訪,現場感知**人才工作成果,并集中刊發了《**區積極開展人才工作宣傳月主題活動》、《**大力開展“萬眾創新、大眾創業”活動》等稿件。
3、加強網絡輿論的監測與引導。配合市網信辦及市直新聞媒體,認真做好對“千人人才計劃”和“海外人才引進”等重點內容的網絡篩查工作,加強對我區涉及人才工作等相關內容的網絡輿情監控工作,正確引導網上輿論。
二、2020年工作設想:
1.持續做好人才工作新聞宣傳。圍繞區委、區政府人才強區戰略,弘揚工匠精神,加快培養高技能人才,助推**高質量發展的部署要求,加強宣傳選題策劃,著力推出一批精品稿件,不斷提高新聞宣傳的實效性。
2.組織開展人才工作主題采訪活動。聚焦構建“1+5+1”現代產業體系和推動**高質量發展,加強主題宣傳策劃,在微信公眾號等平臺開設“智領**”專題專欄,深入基層一線,進行專題采訪,報道我區優秀人才的典型事跡和經驗做法。
關鍵詞 大學生 日常管理 新媒體 工作模式
中圖分類號:G645 文獻標識碼:A DOI:10.16400/ki.kjdks.2015.07.077
Research and Practice on the College Students’ Daily Management
Mode under the New Media Environment
YU Yong, YE Yugang, XUE Yakui
(College of Science, North University of China, Taiyuan, Shanxi 030051)
Abstract The new media age brings new ideas of the college students' daily management. The college counselors should march forward courageously in the face of new challenge. Medias of the study were wechat, fetion and microblog. The college students' daily management of the patriarch-college-dormitory new mode was designed in this study, and the working practice was carried out, which promoted the working quality of college students’ daily management.
Key words college students; daily management; new media; work mode
高校大學生的日常管理是一項十分具體、繁雜而又細致的長期性工作,主要涉及到學生的思想、學習、生活、心理等各個方面。90后作為當今大學生的主流,由于其成長環境的特殊性,具有思維活躍、個性鮮明、獨立自信、勇于表現、抗挫能力弱、辨識力不強等特征。①②隨著現代科技的發展和人們生活水平的提高,微信、QQ、飛信、微博等新媒體技術已經滲透到人們的學習、工作中,成為人們生活不可或缺的一部分。新媒體以其傳播平臺的開放性、傳播主體的平等性、傳播對象的互動性、傳播信息的虛擬性、傳播速度的即時性、傳播方式的多元性、傳播內容的多樣性等特點③④⑤而深受90后大學生的關注和喜愛,成為他們獲取和交流信息的重要渠道,這為加強大學生的日常管理提供了全新的環境和良好的機遇。但新媒體信息傳播的“無屏障性”、虛擬性、多樣性等特征⑥⑦⑧⑨也使涉世不深的90后大學生不能及時、正確的鑒別和把握其本質,導致大學生被騙、被害的案例時有發生,虛實世界的差異帶來的大學生心理問題屢見不鮮,這都給當前大學生的日常管理帶來了新的問題與挑戰。因此,深入認識網絡,掌握新媒體環境對大學生日常管理的影響,探索新媒體環境下大學生日常管理的有益模式,對于加強和改進大學生的思想政治教育、培育和踐行社會主義核心價值觀等都有著重要的現實意義,這也是擺在高校政治輔導員面前一項緊迫而重要的研究課題。
1 新媒體技術在大學生群體的應用現狀調查分析
以中北大學理學院500余名本科生及500余名學生家長為調查對象,重點針對目前大學生及學生家長使用新媒體技術的現狀開展問卷調查,了解學生及家長利用新媒體技術加強學生日常管理的真實意愿;并從輔導員工作的角度,討論分析了利用新媒體技術加強學生日常管理的可行性。本次問卷共發出1000份,收回有效問卷981份。分別從大學生和學生家長兩個層面提出16個問題。
調查結果顯示,100%的學生在日常學習、生活中使用飛信、QQ、微信等新媒體手段;41%的學生通過新媒體手段與家長日常聯系;97%的學生家長使用手機通訊工具;29%的學生家長會熟練使用新媒體技術;53%的學生不介意學校通過新媒體手段與家長聯系;94%的學生家長愿意通過新媒體手段與學校實時聯系。調查結果表明,在學生日常管理中,強化新媒體技術的應用是切實可行且具備條件的,學生家長對此也是支持和贊同的。大多數學生家長還是希望通過新媒體手段及時了解、掌握學生在校的學習、生活行為,共同加強對學生的日常管理。
同時,高校政治輔導員作為大學生日常管理的承擔者與實施者,其既是科學、高效管理的研究探索者,又是利用新媒體手段加強學生日常管理的創新實踐者。同時,輔導員也是新媒體技術的應用者,與學生有共鳴之處。在學生日常管理工作中,飛信、QQ、微信等新媒體手段的廣泛應用,也為輔導員探索新媒體環境下大學生日常管理的有益模式提供了可能,其可通過模式設計―實踐檢驗―總結推廣系列思路完善大學生日常管理的有效途徑,以增強其實效性,提升工作質量。
2 新媒體環境下大學生日常管理新模式實踐探索
傳統的高校學生日常管理模式具有點對面單向灌輸說教、信息延遲滯后、缺乏互動交流、教育實效不佳等缺點,⑩已不能適應新媒體時代面向90后大學生的教育要求,亟待創新大學生日常管理的工作模式。同時,公寓作為大學生日常活動的主要場所,其在公寓內的行為直接影響高校養成教育的質量,而目前學生公寓內沉迷游戲、物品臟亂等不良生活習慣都對學生的日常管理造成嚴重的影響。此外,還有部分學生因家長不在身邊,游離于校園外做出不良行為等等。
鑒于此,本研究利用中北大學政治輔導員進公寓的契機,實現了輔導員在公寓內與學生同吃、同住、同學習、同活動的預期目標。在此基礎上,充分利用飛信、QQ、微信、微博等新媒體手段,聯合學生家長對學生在公寓內、外的日常行為進行實時管理與監督,充分發揮家長、學校、新媒體技術三者各自的優勢,實現公寓內、外學生言行一致的養成教育,提升學生綜合素質。
在此,本研究選取了中北大學理學院1000余名本科生及2000余名學生家長作為研究對象,選用飛信、微信、微博三種新媒體手段作為研究內容,提出家―校―公寓三方共管模式,針對學生日常行為管理、心理干預、網絡輿情監控等方面開展了研究與實踐。學生日常管理過程包括日常事務、公寓行為、課堂行為、學風案例、常識普及、輿論引導等方面,相關新媒體條件下的工作模式分為以下三種:
2.1 微信推送互動模式
本模式適用于熟練應用網絡技術的學生及家長群體,可針對學生在公寓內、外的日常行為實現實時互動管理,工作流程圖如圖1:
圖1
作為一個微時代下誕生的主流新媒體平臺,微信以其極致的多功能體驗而成為人們的一種生活方式。本研究中構建了家(學生家長)―校(輔導員、班主任、任課教師)―公寓(學生宿舍)模式的班級微信群、年級微信群、專業微信群以及學院微信群,以學生公寓行為(網絡應用、衛生習慣、生活作息、文化建設等)和日常管理工作(上課、早操早讀、班級活動、制度落實、特殊群體等)的檢查與開展為研究對象,發揮微信新媒體即時推送、實時互動、多點共鳴、音視頻情感溝通等優勢,聯合家長,第一時間將學生不良行為消滅于萌芽狀態。同時,多層面的學生―家長―學校循環“”型討論群對學生的輿論督促力量更勝于制度約束,這對于加強學生日常管理以及良好公寓行為的養成都有著積極的推動作用。
2.2 飛信通知模式
本模式適用于網絡技術受限的學生及家長群體,可針對公寓內、外的學生行為實時通知,工作流程圖如下:
圖2
飛信模式的優勢在于信息接收端不受網絡限制,學生及家長可隨時收到短信通知,這對于手機通訊工具廣泛普及的今天,提高信息數量、質量及效率都有著特殊的意義,基本實現了即時信息對學生及家長的瞬間全覆蓋。
2.3 微博交流干預模式
本模式適用于網絡虛擬班級建設,通過“人人是博主”的開放性管理形式,聯合家長的教育力量,群策群力,提升日常管理工作質量,積極開展心理干預及網絡輿情監控等工作,工作流程圖如下:
圖3
與封閉聯絡平臺微信區別的是,微博是一種開放、高效的展示平臺,其實現了博主與粉絲的差時交流與關注。本研究中構建了以“班級微博”為主的網絡虛擬班級,實施“一周一人當博主”的工作模式,將現實班級工作有選擇地搬遷到網絡班級中,以博文的形式講發展、談建設、做工作,充分發揮每個人在班級建設方面的主體性,讓每個同學都成為班風建設的主人。同時,鼓勵家長關注并參與班級建設,關注學生的成長與思想,協同學校一起做好學生的日常管理工作。此外,透過博文及交流互動內容,班主任和家長還可了解到學生的思想狀態和心理狀態,在第一時間有的放矢地開展學生的心理干預、思想引導、網絡輿情監控等工作,努力將學生的不良隱性問題及時糾正和治愈。
3 新媒體平臺下的日常管理工作總結
中北大學理學院“新媒體中心”成立于2013年9月,當年10月開始構建微信、飛信、微博等新媒體平臺,12月開始試運行。歷經一年的調試應用,到2014年12月已實現穩定運行,且在班級學風建設、團日活動、宿舍文化、特殊群體跟蹤教育、安全教育與管理、心理干預、文明禮儀養成等方面初顯成效,學生曠課、曠操、違紀比例明顯下降,宿舍良好行為習慣基本形成,班風、舍風積極向上,比、學、趕、超的格局逐漸強化,部分團結、和諧、奮進的優秀班級已成為大學生成長的“優質搖籃”。同時,學生家長參與學生日常管理的熱情極高,有些家長已形成“日刷微博日留言”的生活習慣,身臨其境地感受著學生成長的點點滴滴。總之,理學院在新媒體環境下的大學生日常管理新模式得到了學校、學生、家長以及老師們的廣泛認可,具有深度挖掘和積極推廣的現實意義。
注釋
① 劉笑.90后大學生日常管理創新模式探析[J].黑龍江科學,2014.5(10):257.
② 武月明.淺議大學生日常教育管理的有效方式與途徑[J].山西農業大學學報(社會科學版),2011.10(6):548-550.
③ 徐振祥.新媒體-大學生思想政治教育的機遇與挑戰[J].思想政治教育研究,2007(6):64-66.
④ 張碩.新媒體背景下大學生教育管理工作探討[J].北京教育(德育),2012(1):41-42.
⑤ 毛近菲.新媒體對高校大學生黨員教育管理工作的影響及對策[J].南通職業大學學報,2013.27(2):25-27.
⑥ 蔣蕾.新媒體時代大學生思政工作的管理方法[J].理論觀察,2013(11):132-133.
⑦ 汪E.新媒體對“90后”大學生思想政治教育的新挑戰[J].思想教育研究,2010(1):71-74.
⑧ 蔡莉.新媒體時代大學生思想政治工作新模式構建[J].科教文匯,2014.6(C):8-9.
新聞觀念方面
變被動宣傳為主動創新
對于重大主題報道,媒體從業人員由于長期受既定思維局限,多將重大主題報道當作對既定主題的宣傳。于是,經驗性的操作成為常態,以過去的機械流程生搬硬套,將重大主題報道做成了八股式的命題作文,缺乏新鮮性。要改變這種狀況,媒體從業人員應該從思想深處擺脫以被動宣傳應付差事的心態,樹立創新的新聞工作觀念。實際上,重大主題報道是一座“新聞富礦”。重大主題報道一般是在黨委、政府作出了重大決策,或配合黨委、政府的中心工作推出的,而黨和政府的工作都與人民群眾的切身利益或長遠利益緊密相關,這就為媒體創新重大主題報道提供了一個絕好的基礎,那就是在黨和政府想做的、群眾需要做的、媒體應該做的這三者交叉點上做文章。關鍵在于我們能否將被動宣傳變為主動創新,積極嚴格地按新聞規律辦事,善于在“重大主題”的領域里發現、挖掘、處理富有新聞價值的報道素材,從而把重大主題報道當作媒體提升影響力的一個重要抓手。
主題策劃方面
變圖解式報道為多樣化報道
做好重大主題報道,主動研究、周密策劃是十分重要的環節。目前,面對重大主題報道,許多媒體由于思想上缺乏深刻認識,或受制于人力資源短缺等客觀條件,不肯或難以在新聞策劃上下大力氣,甚至根本沒有新聞策劃,只是一味地滿足于“圖解式”“臉譜化”的簡單機械報道方式,以致報道開掘不深、立意不高,既不叫好也不叫座。這方面的表現主要有三種形式:1.主題先行。重大主題報道應突出主題,但并不等同于“主題先行”。2.視角單一。重大主題報道策劃容易落入“自上而下”的單一視角俗套。3.缺乏互動。原先囿于傳統媒介技術在互動方面的缺陷,無法及時接收到受眾的反饋信息。隨著科技的發展,特別是互聯網技術的推動,這個問題在技術層面已經得到了很好的解決,但新聞人的意識卻沒有與時俱進,而是仍然局限于過去的傳者本位,忽視受眾的參與。這也是重大主題報道雖然花費了大量的人力、物力,卻無法獲得預期效果的重要原因。
重大主題報道要加強傳播的有效性,就必須充分利用不斷發展的媒介新技術,要重視對網絡資源的利用,使自身報道與網絡輿情產生良性互動,將網民對黨委、政府中心工作的意見、想法和需求,以適當的方式在媒體上呈現出來,從而體現主題報道的親和力和貼近性。在具體策劃中,一方面應細化重大主題,將每一個重大主題有機切分為若干小主題,一個一個來解析,以貼近受眾的關注點;另一方面,在與受眾互動中,對“異質思維”要有包容性,在把握正確輿論導向的前提下,多反映普通人的心聲。
采訪寫作方面
變宏大敘事為具體描繪
熱點話題挖掘是輿情監控的重要技術基礎。針對現有的論壇熱點話題挖掘方法沒有解決數據中詞匯噪聲較多且熱度評價方式單一的問題,提出一種基于主題聚簇評價的熱點話題挖掘方法。采用潛在狄里克雷分配主題模型對論壇文本數據建模,對映射到主題空間的文檔集去除主題噪聲后用優化聚類中心選擇的Kmeans++算法進行聚類,最后從主題突發度、主題純凈度和聚簇關注度三個方面對聚簇進行評價。通過實驗分析得出主題噪聲閾值設置為0.75,聚類中心數設置為50時,可以使聚類質量與聚類速度達到最優。真實數據集上的測試結果表明該方法可以有效地將聚簇按出現熱點話題的可能性排序。最后設計了熱點話題的展示方法。
關鍵詞:
潛在狄里克雷分配;主題模型;Kmeans++聚類;聚簇評價;熱點話題
0引言
作為Web 2.0技術迅猛發展的產物,網絡論壇使人們能更多地參與到日常話題的互動中,因此論壇成為了重要輿情的發源地與傳播地。及時地發現輿情有利于政府部門的治國理政,也為企業的發展決策、危機公關處理等提供了輿論向導,因此熱點話題挖掘成為了輿情監測領域的一個重要研究方向。
對于熱點話題挖掘的問題,相關研究人員進行了大量的研究。丁偉莉等[1]對博客用向量空間模型建模后使用SinglePass算法進行聚類來發現其中的話題;邱立坤等[2]在對網絡論壇中文本數據用向量空間建模并聚類后利用點擊數與評論數對結果排序來發現熱點話題;王偉等[3]對用傳統向量空間模型表示的網頁信息用OPTICS(Ordering Points To Identify the Clustering Structure)聚類算法進行兩次聚類來發現熱點輿情。以上研究中都用到了向量空間模型表示文本,它并沒有融入語義信息,這會使得語義不相關的信息出現在同一聚簇中,從而造成了主題信息的丟失,影響了聚類的效果。席耀一等[4]與劉嵩等[5]在對論壇話題追蹤時利用知網語義庫為詞匯加入了語義信息,并用它作為文檔表示模型來計算文檔的語義相似度[6],這種方法在很大程度上緩解了主題丟失的問題,但論壇信息的快速更新使得這種融入了監督成分的方法仍然不能達到理想的效果,而且維護知網語義信息也是個難題。劉霄等[7]通過利用概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)主題模型為Twitter數據建模來發現突發的熱點話題,PLSA成功地利用概率統計的方法來為文本建模,但它并沒有在文檔與主題的層面上給出一個合適的概率模型,PLSA中文檔的主題分布與主題中詞的分布是模型的參數,它們會隨著文檔增多而增加,這樣它只能生成給定文檔集合上的模型,在新的文本加入時還要重新訓練,另外當訓練集有限的情況PLSA還可能會出現過度擬合的現象[8]。
本文熱點話題挖掘的研究對象是網絡論壇數據集,它不同于新聞網頁中經過專業編輯處理過的文本,它有著自己的特點:1)口語化,帖子者來自不同的地方,也有不同的經歷與背景,在表達同一觀點時措辭會有很大不同,經常會有錯別字或網絡新詞匯產生,這就使得詞匯噪聲較多;2)篇幅差距較大,有些帖子的論述比較多,另一類只通過帖子的標題來傳達信息,這會造成詞匯矩陣稀疏的問題。
針對以上研究中的不足以及論壇文本數據的特點,本文采用潛在狄里克雷分配(Latent Dirichlet Allocation,LDA)主題模型對論壇文本數據建模,在對數據集進行聚類基礎上提出基于主題聚簇的評價方法對聚簇進行排名。該方法在考慮主題的關注度同時,還對聚簇內部所含主題的突發性與主題純凈度加以考慮。通過對最有可能出現熱點話題的聚簇進行信息抽取后設計話題展示的方法來完成熱點話題挖掘任務。
1系統整體框架
對論壇文本集預處理后用LDA主題模型建模,將文本表示由高維詞匯空間映射到了低維主題空間,這樣就去除了詞匯噪聲的影響,之后用處理規模相似的訓練集進行聚類實驗,從對聚類的速度與效果兩方面考慮得出合適的主題噪聲閾值與聚類中心數目,然后用優化聚類中心選擇的Kmeans++算法對主題空間中表示的文本集合進行聚類,之后通過主題聚簇用評價方法對出現熱點話題可能性賦予權重,最后從最有可能出現熱點話題的聚簇中用本文提出的描述方法提取出熱點話題信息作為展示。
2論壇熱點話題挖掘
2.1論壇文本建模
2.1.1LDA主題模型
LDA主題模型是一種三層貝葉斯概率模型,是Blei等[8]在2003年提出的,它的目的在于以無監督的學習方法從文本集合中發現其中隱含的語義信息。
根據LDA模型的描述,文本集合可以按以下算法生成。
2.1.2模型求解
LDA主題模型求解模型的過程就是在給定模型參數的條件下,最大化式(2)中描述的每個文檔的生成概率的問題:
p(w|φ,α)=∫p(w|φ,θ)p(θ|α)dθ (2
LDA模型求解是困難的問題,很難有精確的解法。實踐中常用到的有兩種不精確的解法:一種是基于變分法的EM(EstimationMaximization)算法求解[8];另一種求解方法是Gibbs Sampling[9],它是MCMC(Markov Chain Monte Carlo)方法的一種,其理論基礎是馬爾可夫鏈收斂定理,通過構造符合馬爾可夫鏈細致平衡條件的狀態轉移矩陣,讓任意給定的初始分布通過轉移矩陣迭代轉移,使其收斂到目標分布。Gibbs Sampling算法采樣公式推導起來簡單而且實際應用中運行效果也十分理想。
Gibbs Sampling求解方法采用了與式(2)提到的方法所不同的思想,它不直接將φ與θ作為模型參數來估計,而是先計算后驗概率p(z|w),再對模型隱含變量進行估計。以下是Gibbs Sampling算法求解LDA模型變量的步驟。
2.1.3論壇文本建模
本文采用了JGibbsLda[10]LDA建模工具對預處理后的論壇文本數據進行建模分析。參考文獻[11]中LDA主題模型參數的經驗值,取α=50/K, β=0.1,其中K為指定的潛在主題數,Gibbs Sampling的次數N設為1000。
Gibbs Sampling算法結束時會產生兩個矩陣:
大小為M×K的文檔——主題分布矩陣,其中M為論壇文檔集數目;大小為K×Nw的主題——詞的概率分布矩陣,其中Nw為文檔集中詞匯表的大小。
2.1.4主題噪聲去除
通過對文檔集主題分布矩陣觀察發現,每個主題分布中會出現一個或幾個突出的主要主題,其他次要的主題所占的比重可以忽略。為了突出主要主題的影響,采用了以下規則對主題噪聲進行去除:假設每個文檔的主題分布中概率值最大的為主要主題記作Tmain,它的概率記作P(Tmain),設定閾值δ,對于除主要主題外的其他任何主題Ti,如果P(Ti)
2.2主題空間Kmeans++聚類
傳統的Kmeans聚類算法中,聚類中心的選擇是個關鍵的步驟。大多數用到的隨機選擇的方法會導致每次聚類的結果有差別而不能很好地反映聚類的真實情況,所以對映射到低維主題空間的論壇數據采用優化聚類中心選擇的Kmeans++算法[11]對論壇數據進行聚類。Kmeans++算法如下:
設D(x)為文檔x到已有的聚類中心中最近的距離;X為數據點集合;
步驟1從X中隨機選擇一個點作為第一個聚類中心c1;
步驟2以概率分布D(x)2/∑Xx=1D(x)2選擇數據點x∈X,并將它作為新的聚類中心ci,更新D(x);
步驟3重復步驟2直到找到K個聚類中心;
步驟4執行標準的Kmeans聚類算法對數據進行聚類。
對于最優聚類中心數的確定,可以在已知處理數據集規模條件下進行聚類實驗,從中心數的設定對聚類質量與速度的影響選出最優值。
2.3主題聚簇評價方法
為了發現熱點話題,本文提出了一種主題聚簇評價方法對出現熱點話題的可能性進行權重賦值。
假設聚類中心各個主題分量的概率分布矩陣表示如下:
其中:C為聚類中心數;K為主題數;p(k,c)表示主題k分配在聚類中心c的概率,k∈K,c∈C且對于任意c∈C,∑Kk=1p(k,c)=1。
盡管聚類算法已經將主題描述不相關的帖子分開,但依然存在一些主題,它們在每個簇中的分布情況非常均衡,這樣的主題因為其普遍性而少了突發的特征,本文采用主題在各聚簇中的分布均衡情況來描述主題突發性。
定義1設C為聚類中心總個數,p(k,c)為聚類中心c中主題k的概率分布值,那么主題k突發度PromDeg(k)定義如下:
PromDeg(k)=∑Cc=1(p(k,c)-∑Cc=1p(k,c)/C)2/C(7
當得到了各個主題的突發度后,將各維度中主題的突發度與其所占的概率加權求和,很容易得到總的主題突發度,用它作為衡量聚簇主題突發性的標準。
定義2假設PromDeg(k)表示主題k的突發度,p(k,c)為聚簇c中第k維主題的概率值,其中k∈K,K為主題數,那么聚簇c的主題突發度為:
PromDeg(c)=∑Kk=1PromDeg(k)p(k,c)(8
在主題聚簇中,可以將聚簇表達的信息表示為在主題上一定概率的混合,純凈度高的聚簇可以更清楚地表達主題信息,而熱點話題聚簇會因為其主題的聚集趨勢明顯而使得純凈度高。信息熵是信息論中度量信息量的概念,系統的狀態分布越有序,信息熵越小。以聚簇的主題信息熵為依據,定義衡量聚簇主題純凈度的標準。
定義3假設K為主題數,p(k,c)為聚類中心c在第k維主題的概率,那么聚簇主題純凈度Purity(c)為:
其中γ為平滑值,防止主題信息熵為0。
為了衡量聚簇的熱度,融入人為參與因素,賦予聚簇不同的關注度權重,文本采用單位時間內點擊數與回復數來對聚簇的關注度進行描述。
定義4假設T2為采集時間,T1為發貼時間,φ為調整回復數與點擊數的權重,repNum、clickNum分別是帖子的回復數與點擊數,N為聚簇中包含的帖子總數,那么聚簇c關注度AttenDeg(c)為:
AttenDeg(c)=1N∑Nn=1(φ*repNumn+(1-φ)*clickNumn)T2-T1(10
將聚簇主題突發度、主題純凈度、關注度三個評價標準綜合進行考慮可以得到每個聚簇含有熱點話題可能性的歸一化的評價公式:
S(Cj)=PromDeg(Cj)AttenDeg(Cj)Purity(Cj)∑Cc=1PromDeg(c)∑Cc=1AttenDeg(c)∑Cc=1Purity(c)(11)
其中Cj代表了第j個聚類。
2.4熱點話題提取
對聚簇按出現熱點話題的可能性排序后,通過找出與聚類中心所描述的主題擬合程度最高的帖子,并抽取出最能描述熱點話題的標簽,來完成熱點話題挖掘的工作。
由于聚類中心反映了聚簇中的平均的主題分布情況,通過找出與聚類中心語義相似度最大且關注度最高的帖子作為包含熱點話題的帖子樣例。本文使用JensenShannon散度[12]來計算帖子主題分布與聚類中心之間的擬合程度。JensenShannon散度公式如下:
DJS(PC)=12∑Kk=1P(k)lbP(k)M(k)+C(k)lbC(k)M(k)(12)log的底是多少,請明確。
其中M(k)表示兩概率分布中同一維度上的概率均值,可用式(13)來表示:
M(k)=12(P(k)+C(k))(13)
其中:P為帖子在主題空間的概率表示,C為聚類中心在主題空間的概率表示,K為主題空間的維數。
最后找出聚簇中占比重最大的主題,統計出在此主題下出現頻率最高且出現概率最大的若干個詞匯作為熱點話題的標簽化描述。
3實驗與結果分析
3.1主題噪聲閾值與聚類中心數的確定
對主題空間中表示的文本進行聚類時,不同的主題噪聲閾值與不同的聚類中心數目選擇會對聚類的質量與速度產生不同的影響,而目前并沒有合適的規則對兩個值進行選擇。通過對不同的主題噪聲閾值與聚類中心數進行訓練,選擇出最優的聚類參數。
聚類效果的評價標準采用平均聚簇內誤差平方和(Average Sum of Squared Errors,ASSE),值越小表示了聚簇內部的樣本點越集中,聚類質量越高,其形式如式(14)所示:
ASSE=∑Cc=1∑Nn=1xcn-xc2/C(14)
其中:xcn 為聚類c中的第n個樣本點,xc為聚類中心。
實驗中選擇了2763篇論壇帖子作為訓練集,聚類采用Kmeans++算法,主題噪聲參數范圍設為[0,1],聚類中心的數目選擇為[5,100]。圖3與圖4分別顯示了不同的主題噪聲與聚類中心選擇對聚類質量與速度的影響。
實驗結果表明:聚類中心選擇不同值時,當主題噪聲閾值在區間[0,0.7)時,聚類結果的ASSE值會顯著降低,閾值在區間[0.7,1)時,ASSE值不會發生明顯變化,為了考慮次要主題對話題描述的意義,將主題噪聲閾值設置為0.75;圖4中的峰值顯示當主題噪聲閾值設置過大,聚類中心數目較少時聚類時間開銷較大且不穩定,當閾值過小,聚類中心數目多時也會出現相同的狀況,考慮到聚類質量相對較優的情況下,參照圖中時間開銷較低的區域,將聚類中心數目選擇為50,這樣就可以在保證聚類質量同時提高聚類算法效率。
3.2聚簇評價與熱點話題發現
本文采用的實驗數據來自用戶活躍的天涯論壇的經濟論壇、股市論壇、理財前線、房產觀瀾這4個版塊,通過網絡爬蟲采集了從2013年7月1日到7月5日的帖子共11200篇。采用LDA主題模型對預處理后的數據進行建模,主題個數K取100,模型的參數選擇原則為2.1.3節中所述。主題噪聲閾值設為0.75,之后將數據用Kmeans++算法進行聚類,聚類中心數N設為50,最后對主題聚簇用評價方法對出現熱點話題的可能性進行權重計算。
為了詳細分析主題聚簇評價效果,在圖5中列出了2013年7月2日當天排名前4的聚簇各評價因子權重。從圖中分析得出:雖然有些主題聚簇的突發性與純凈度得分高,但關注度很低,可以判斷這是一類灌水貼,不能當作熱點話題;而熱點話題的特征是關注度高,而且突發度與主題純凈度得分也比較高。圖中標注的是排名最高的4個話題聚簇的主題詞依次是:大盤、板塊、期貨;貨幣、流動性、銀行;百姓、貨幣、物價;收益率、期限、風險。
4結語
本文基于LDA主題模型與Kmeans++聚類算法,提出了一種在論壇中挖掘熱點話題的方法。主要工作總結如下:
1)將LDA主題模型用于論壇文本數據建模中,挖掘其中語義信息,解決了論壇數據中詞匯噪聲多的問題,同時避免了文本表示中矩陣稀疏的問題。