假新聞筆記(1) 定義/資料集/機構
最近假新聞逐漸成為熱點,從天下的專題報導《輿論戰爭》到NCC對中天開罰,還有台灣的紛絲團收購風波,以及在各國選舉中對於民主的傷害,都歷歷在目。
雖然假新聞近期成為焦點,但國內外的研究行之有年,更有借助AI的技術如自然語言處理(NLP)來協助事實查核(fact checking),協助自動化部分流程,本文參考論文Automated Fact Checking: Task formulations, methods and future directions,整理一些資料與解決方法,第一篇主要說明定義、資料集與國內外相關組織,下一篇會講些解決方法或可部分自動化查核過程的演算法,如有其他資訊也希望大家幫我留言補充,謝謝 : )
新聞中的事實查核:
為了避免假新聞,就必須進行事實查核,作為新聞報導中必要的一環,在學術領域中與新聞學(journalism)有關,新聞學作為「查核的紀律」(discipline of verification) ,與娛樂、宣傳、科幻或藝術有所區別,可做為定義假新聞的學科。
1. Verification:以科學的方式獲得事實,而且是正確的事實。(“scientific-like approach of getting the fact and also the right facts”)
涉及確認來源、日期及地點,較為客觀的資料。而在Cambridge Dictionary的解釋是the act of verifying something(=proving or checking that it exists, o is true or correct),似乎是較為單純的行為。
2. Fact checking:進一步確認消息的邏輯、前後文是否一致及上下的關係(脈絡context)。
查字典是the process of checking that all the facts in a piece of writing, a news article, a speech, etc. are correct,涉及範圍比較廣,是一整個查核過程。
總之,verification是fact checking的第一步,作為後續前後文推理的基礎,以確認消息可信賴的程度,後面會用verification/fact checking區別不同(半)自動化剖析方式。也可以參考Craig Silverman在Verification Handbook 的解釋。
回到fact news,因為川普當時在大選的狂言而走紅,也開始與fact checking搭上線,同時常出現的字還有hate speech(仇恨言論),但如果細分,hate speech偏向情緒上的表達,所以為了避免定義上的模糊,聚焦在fact checking。
另一個跟fact checking常一起出現的是misinformation 不實消息 與 disinformation惡意消息,misinformation偏資訊誤植或不完整,disinformation就是惡意的消息,比較偏向日常所提到的以不正當手段牟取利益的假新聞, 歐盟有提出三個要素,
(1) 惡意扭曲事實
(2) 謀取經濟利益或特定目的
(3) 對大眾利益造成傷害(public harm)
所以misinformation裏面包含了一塊是disinformation,fact checking可以找出misinformation,但很難從disinformation裡面拆分出來。
證據來源(source of evidence)
由於fact checking近期受到注目,許多技術與定義都眾聲喧嘩,這裡針對證據的來源,因為不同的任務,所需要的證據也不同,最簡單的是二分任務,是否為misinformation,那就需要標籤(label)註記,如果需要說明理由(justification),那就會需要更多來源,例如消息的標題、內容、消息來源或訪問專家等,或是引用內容以外的資訊,需要怎樣的結果,必須要有相對應的證據來源。
1. 來自陳述(claim)本身:
針對題目給答案,不加入其他證據,判斷表層的真實性(veracity),相對於一般記者的查證過程,需要依賴常識、專業知識或是訪問消息來源等,只是簡單的判斷。
2. 資訊的來源(metadata):
像是作者的資料、媒體來源(例如內容農場)、引用來源等,雖然這種方法無法直接指出證據所在,但還是可以用來增加真偽分類的準確性,或是做為判斷的參考依據。
3. 社群網路(social media)貼文的傳播途徑:
從宏觀的角度來看使用者與貼文的互動,觀察謠言的特徵,尤其在知識圖譜的結構化資料缺乏,或是原本資料庫/文字資料沒有相關資料時,可以提供有效的幫助。可參考天下雜誌的《輿論戰爭》,對於內容農產在產製內容時會有特定的傳播路徑,風向怎麼帶,似乎在來源與時間上有脈絡可循,或是像gene大大做的專頁儀表板都可以看到一定的跡象。
4. 知識圖譜(Knowledge Graph):
以特定的數據結構,將部分世界上的常識以機器讀得懂的方式儲存,協助抽取支持/反對陳述(claim)的元素(element),通常資料來自大量知識的地方,如Wikipedia,但在整個世界上的知識占比也是極為渺小。
輸出結果(output)
- 二分法(binary classification):是否為misinformation
- 有序分類(ordinal classification):針對程度區分,如部分真實,完全真實,部分錯誤等
- 多標籤(multiclass labels):可能是多個維度,及相對應程度的評比,每家機構的定義都不太一樣,較難互相參照。
- 可能性:判斷的結果可能是機率或是分數,例如此新聞87%可能是假的,或是輸出一個分數。
- 支持(supported)/反駁(refuted)/中性(可能是資料不足):確認陳述(claim)是否與文章、標題(headline)相關,因為有很多標題黨(誤,通常這只是fact checking的一環而已。
Ps. 最近有一個Workshop FEVER(Fact Extraction and VERification, Thorne et al., 2018),利用Wiki撰寫陳述作為資料集,給機器判斷,但僅限制於Wiki內的知識。另外一種考慮不限制資料來源(world knowledge),如HeroX,但缺點是判斷結果要人工判定。
資料集(Dataset):
- cofacts:g0v的開源專案,以群眾協作的方式,民眾回報假新聞,志工進行查證,且提供Chatbot美玉姨自動回覆。
- kaggle — fake news(二分任務)
- kaggle — Fake News detection(二分任務)
- Fact Extract and VERification:利用Wiki撰寫陳述作為資料集,給機器判斷,但僅限制於Wiki內的知識。
- WSDM — Fake News Classification(多分類任務):label — indicates the relation between the news pair: agreed/disagreed/unrelated
組織
台灣:
國外:
- Fullfact:Full Fact is the UK’s independent factchecking organisation.
2. The International Fact-Checking Network(IFCN):a unit of the Poynter Institute dedicated to bringing together fact-checkers worldwide
3. Storyful — The world’s social media intelligence agency
其餘參考資料:
- 進入 NLP 世界的最佳橋樑:寫給所有人的自然語言處理與深度學習入門指南
- 【Cofacts 真的假的】參考資料錦集
- 假新聞製造機 — 鼓吹者如何利用網際網路來操縱大眾
- 2019 假新聞與事實查核工作坊 學員手冊
- 2019亞洲新聞專業論壇 會議手冊