AIFR Group

Civil Law Project 自然語言處理應用於民事裁判預測

一、背景說明

人工智慧應用在人文與社會領域中有一個共同且困難的挑戰在於，絕大部分的人文社會資料是經由作者仔細思維後所寫作產生的文本(text)，是較不容易被標準化標註的資料型態。而文字意義的歧異性與許多非結構化的背景脈絡更增添機器學習的困難度。對此本研究嘗試提出一個解決方案，亦即從民事裁判著手，發展一套自然語言處理的流程來協助克服資料標註與分類的困難，未來亦可能應用到其他類型的文件分析。

如同所有人工智慧技術，訓練資料(Training Data)的特色與品質往往是決定其應用成效的首要因素。相較於其他類型的文本資料，法院裁判作為自然語言處理的應用有幾個好處：首先，裁判書類係由法學專業的法官所撰寫，以嚴謹的邏輯與法律用語處理社會之爭端。因此其用字遣詞不但有其條理性與穩定性，內容又可呈現出當代社會生活的情境。更重要者，我國為成文法國家，民法及相關法規相當詳盡，很適合做為機器學習的輔助；在司法實務上，多數民事案件也能加以類型化。因此，如果人工智慧能在民事裁判的判讀、分類與預測上有所進展，咸信有助於減緩一般民眾對司法裁判期待的落差，達到止謗息爭的果效，間接提升人民對司法之信賴。

二、計畫簡介

(Caption): Relationship of Civil Law Project

目前我們的研究先集中於研究親權裁定(即當父母雙方離婚後如何酌定子女的監護權)的案件。例如究竟民法1055-1條中所強調的「子女最佳利益」在司法實務上是如何被實踐評估，能否由AI來學習判斷？研究的三個大方向是(1)建構判決書的標註資料庫，(2)研發自然語言處理的模型，以及(3)發展法學實證相關研究。本計畫是屬於科技部AI人文社會領域計畫，由清華大學所執行的「競爭或合作？人工智慧在人文社會的應用與影響探究」總計畫中的子計畫一「可解釋性人工智慧在家事裁判之應用與其限制」。計畫執行期間為2019-2020。

本研究的判決書資料來自於司法院法學資料檢索系統。第一階段是蒐集2015-2017這三年間各級法院所有與親權相關的案件。此處的「親權相關」乃指全文帶有「離婚」、「審酌」與「子女最佳利益」的判決，共計2,620篇。未來會再擴展至其他年份與類型。我們先以人工的方式將這些判決書標註出「類型特徵」與「理據特徵」。前者包括判決結果、雙方意願、雙方身分、雙方國籍；後者包括對於雙方有利與不利的文字理由段落。有機會成為國內目前最詳盡的民事案件分析資料庫。這些資料形成原來判決書的「等效資料」，可以更方便地用來作進一步的量化與質性研究。其中也包括利用自然語言處理的方式來作判決預測。

三、自然語言處理為基礎的判決預測

(Caption): Flow Chart of Civil Law Project

在中文斷詞部分，本研究採用結巴(jieba)中文分詞器並輸入中文法律辭典為補充。在語意分析方面，主要採用兩種方式：首先是非監督式的隱含狄利克雷分布法(Latent Dirichlet Allocation, LDA)計算判決書中各種詞彙的出現頻率與其關係，自動產生出多組「主題」來為判決書的內容進行全自動編碼，是獨立於人為方式的文本屬性分析。另一種是使用類神經網路的自動編碼(auto-encoding)的技術。例如藉由計算詞彙與上下文之間的關聯性，得到數學上足以表達詞彙與詞彙之間關聯性的詞向量(Word Vector)，並也用同樣的方式將一個段落作編碼(Doc2vec)。此方式能將語意類似的字詞或段落作有效的編碼而保持彼此間統計上的關係，有助於進一步分析。

在使用XGBoost(極限梯度提升法)的分類器中，我們發現在所隨機挑選的4000篇判決書(其中親權相關與無關的各半)，可準確地找出親權相關案件(準確率達99.98%)。而在這些所有親權相關案件中若要分類出聲請人與相對人雙方都有意願的案件，亦可得到80%以上的準確率。後者若換用非監督式的Kmeans，則可高達94.56%，顯示主題生成模型可相當有效作為判決書的自動分類方式。

(Caption): Prediction of Civil Law Project

此後即根據以上方法所得之編碼，透過深度神經網路(Deep Neural Network)等機器學習方法來進行文本的判讀、分類與預測。例如，將某類型判決書與其判決結果作為訓練資料，讓機器學習單純從文本的詞彙與主題來預測判決結果。若能達到一定的準確度，將可回推法官在判決書中的用詞與主題間的關聯性，作為判決品質評估或機器預測的依據。此研究法並不強烈倚賴於人類主觀的參與，有助於推廣延伸至其他以文本資料為主的人文社會的研究領域，提供不同於傳統的研究方法來增進對人類文化、語言與思想的深入了解。

四、判決文字意向判斷模型

我們第一個步驟是先從句子的語意辨別開始訓練。利用已經標註出來的近七千句有利或不利句來訓練類神經網路作分辨，若是僅作二元分類(有利或不利)已可達90%以上的準確度，即便加入隨機抽取的中性句作三分類的判別，也可有超過83%以上的準確度。如果僅是保留關鍵字但改變語意的描述，亦可發現判斷機率的變化，例如「當事人工作穩定且也有儲蓄習慣，能提供本身及被監護人生活所需。」本是100%的有利句；但是如果改變文字成為「當事人工作穩定且也有儲蓄習慣，恐不能提供本身及被監護人生活所需。」，雖然本句語意不通，但一會發現AI判斷也只有50%的機率是有利句，而有42%的機率是不利句(並8%的中性句)。這顯示我們的模型目前已有初步的語意判別功能，能反映出對於親權判決的正負向判斷能力，未來也有機會作更好的提升，是AI應用在判決預測的基礎。

(Caption): Prediction of Clivil Law Project Website

五、親權判決預測模型

在爭訟雙方都有意願的情形下，我們將相關的判決書提取如前所述的相關資料後，作為判決預測模型(也是以類神經網路模型來建構)的輸入特徵，對判決結果作預測。本計畫所使用的若干特殊資料處理技術，已經能夠產生有意義的擴增資料來協助訓練，增加準確度與擴增使用情境，克服初始訓練資料來源可能有限的情形。相關技術已經正在申請國內外專利，無法於此詳述。如果只考慮二元分類的情形(判給聲請人或相對人)，目前的準確率亦可達90%以上。但是如果加入有若干判給雙方共同親權的案子，我們目前的模型亦已經有超過80%的準確度。本計畫的標註資料經過特殊處理後，亦將可以擴充到接受一般人的常用語彙(非法官、律師或法律學者的專門用語)，使之成為案件當事人可以拿來做為進入訴訟前先行評估的工具。

傳統量化統計只能根據「已有的個案」分析，但新案通常條件不可能與過去完全一樣，也不容易評估各因素間的關係。但AI可以出模擬判決的邊界，並藉由控制不同因素來了解。未來這可能會是另一種研究判決或決策過程的新方法。本研究相關的應用網頁已經在開發中，將在更嚴謹的內部測試與學術研究分析後，提供可能的公開測試版本。希望這會有助於國內人工智慧研究、司法實務與法學理論之間的積極合作，一起協助建設對人類社會更有助益的AI應用。

(Caption): Feature of Clivil Law Project

六、AI輔助親權判決預測系統

AI輔助親權判決預測系統：https://hssai-custodiai.phys.nthu.edu.tw/

七、新聞報導

清大首頁故事：http://www.nthu.edu.tw/hotNews/content/936

清華大學簡訊_第 1115 期：http://www.nthu.edu.tw/pdf/pdf_156929716847.pdf

2024/04/26相關報導：

研究團隊中阮羿寧、林雲貂和歐予恩三位同學，開發本系統第三代「 Le姊家事協商好夥伴」在Digitimes與人工智慧基金會主辦的2024 Taiwan Al Expo(目前台灣最大的AI展覽會)中，獲得AI Junior Award的金獎與企業實務獎兩項大獎的肯定！

財團法人人工智慧科技基金會FB：https://www.facebook.com/share/p/2tJPN6pX5HZVhfNU/?mibextid=oFDknk

AI Junior Award 2024 得獎名單：https://www.digitimes.com.tw/ai_expo_2024/award_news.html

2024/04/19相關報導：

感謝台北地方法院家事庭安排半日的研習營，讓研究團隊有機會向40餘位家事調解員與調解法官介紹我們的系統，收到還不錯的回應。這個部分已經有台北地院的新聞稿與媒體的報導如下：

臺灣臺北地方法院AI研討會掀起司法新紀元智慧調解提高雙贏機率：https://tpd.judicial.gov.tw/tw/cp-2850-2454036-8938d-151.html

AI協助預測家事調解台北地院：目前法官人力不足https://udn.com/news/story/7321/7910342

2023年報導

研究團隊阮羿寧同學以親權裁判的標註資料，開發ISST (Intermediate Self-Supervised Training)演算法，提升除了父母雙方以外，雙方共任親權的準確率。獲得國際會議論文口頭報告的肯定。
CustodiAI: A System for Predicting Child Custody Outcomes, Yining Juan, Chung-Chi Chen, Hsin-Hsi Chen, and Daw-Wei Wang*, in System Demonstrations, pages 10–16, Bali, Indonesia. Asian Federation of Natural Language Processing. (Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics ( JCNLP-AACL 2023))

2023年以前的報導

本系統的第一代是2019年由清華大學物理系王道維教授與清華大學科法所林昀嫺教授合作發表。新聞稿與媒體的報導如下：

2020年未來科技館：https://www.futuretech.org.tw/futuretech/index.php?action=product_detail&prod_no=P0008700005580

Taipei Times: Program predicts child custody battle outcomes：http://www.taipeitimes.com/News/taiwan/archives/2019/09/21/2003722662

聯合報：AI能斷家務事？清大首開發監護權判決預測系統https://udn.com/news/story/6928/4058216?from=udn-relatednews_ch2

中國時報：AI協助法官判決清大首開發監護權判決預測系統https://www.chinatimes.com/realtimenews/20190920002522-260405?chdtv

中國時報：監護權怎麼判人工智慧神預測https://www.chinatimes.com/newspapers/20190921000590-260107?chdtv

自由時報：電腦也能斷官司！清大AI預測監護權判決準確率逾9成https://news.ltn.com.tw/amp/news/life/breakingnews/2921340

自由時報：孩子監護權判決 AI預測神準https://news.ltn.com.tw/news/life/paper/1319266

工商時報：AI協助法官判決清大首開發監護權判決預測系統https://m.ctee.com.tw/livenews/ch/20190920002522-260405

三立新聞：AI也能當包大人？　清大開發監護權判決預測系統：https://www.setn.com/News.aspx?NewsID=605685

大成報：AI能斷家務事?!　清大率先開發首套預測系統並開放民眾體驗參考https://n.yam.com/Article/20190920311387

中央通訊社：AI協助家務事清大開發監護權判決預測系統https://www.cna.com.tw/news/ahel/201909200158.aspx

台灣竹塹電子報：AI能斷家務事？清華首開發監護權判決預測系統http://tahcnews.com/?ptype=say_1&id=29134

華視影音新聞https://news.cts.com.tw/cts/society/201909/201909251975850.html

八、研究團隊

王道維教授 (國立清華大學物理系/人文社會AI應用與發展研究中心/學務處諮商中心)
林昀嫺教授 (國立清華大學科技法律研究所)

資工技術
阮羿寧 (清華大學人文社會AI應用與發展研究中心)
歐予恩 (清華大學物理所)
李亞倫 (清華大學資訊系統與應用研究所)
劉弘祥 (清華大學電機系)

資料分析
林雲貂 (清華大學跨院國際博士班學位學程)

判決書資料處理
孫維曼、林倚婕、何宣逸、陳彥熹、蘇雍俊、洪于茜 (清華大學科技法律研究所)

網站設計
何捷睿 (清華大學服務科學研究所)