我們工程師實際 遵循的政策。
大多數 AI 產品用廣泛的術語描述兒童安全。這是我們的 · 以家長能讀懂、研究人員能審核、兒童安全倡導者能挑戰的方式撰寫。
01 · 摘要簡而言之
Cova 是一款為 7 至 17 歲兒童打造的對話式 AI,一個讓孩子保持好奇、學習、獲得作業幫助、創作故事、規劃學習週,以及提出他們真正想問的問題的地方。安全性不是我們事後添加的功能,而是塑造每一個決策的設計約束。我們的目標是打造一款孩子真心想用、家長真心信任的工具。
八種任務導向角色,家教、學習規劃師、寫作教練、測驗達人、創意教練、閱讀夥伴、語言老師、故事講述者,為孩子提供真實的探索與創作方式。十四個主題領域可由家長配置,並為每個年齡層設有合理的預設值,讓家庭能夠隨著子女成長調整 Cova 的互動範圍。十八條始終啟用的護欄設定了任何設定都無法突破的底線。
每條訊息在 Cova 回覆之前都會進行安全檢查。當孩子說的話表明他們處於真實困境時,Cova 不會即興應對,而是暫停聊天、向孩子展示現實世界的資源(988、NCMEC、Childhelp、ANAD、911),並通知家長,以便可信賴的成年人介入。孩子在這些時刻看到的措辭是事先撰寫並在發布前審核的。當最重要的時刻到來時,展現的是關懷,而非即興應對。
02 · 架構Cova 如何運作
每次回覆前的安全檢查
孩子發送的每條訊息都會先由安全檢查讀取,這是一個獨立的層,它結合最近幾輪對話來查看訊息,並決定 Cova 應該給出哪種回應。只有在完成檢查之後,Cova 才會生成回覆。如果訊息是 Cova 不應參與的內容,聊天會顯示預先撰寫的回應。這些預先撰寫的文字在發布前已經過審查和批准;Cova 不會臨時編造。
四種回應類型
安全檢查將每條訊息分類為四個等級之一。等級決定孩子接下來看到什麼,聊天是否暫停,以及是否通知家長。
年齡層
年齡在註冊時由帳戶設定,而非由聊天設定。告訴 Cova「我實際上更大」不會改變任何事情,安全檢查和 Cova 生成的回覆都知道孩子的年齡,且該年齡無法在對話中被說服改變。
Cova 退出的兩種方式
對於 Cova 不參與的主題
一句簡短、友善的話。沒有說教,沒有政策解釋,沒有部分回答。Cova 不會說出方法、物質或行為的名稱,命名本身在某些情況下可能是一種傷害。
針對正在發生的嚴重情況
針對自我傷害、虐待、誘拐、飲食失調行為、性勒索或醫療緊急情況的披露。聊天暫停,向孩子展示現實世界的資源,並通知家長。
雲端與本機
Cova 有兩種版本:雲端版本和在孩子電腦上本機運行的版本。兩者完全遵循相同的政策,相同的安全檢查、相同的預先撰寫回應、相同的家長通知。如果本機版本在沒有網際網路的情況下使用,任何家長通知將在下次裝置上線時發送;無論如何,孩子都會立即看到安全回應。
03 · 原則塑造每個決策的五件事
五項原則塑造了本文件中的每個類別。它們是預設值,而非絕對值,當某類別的具體內容與原則相矛盾時,類別優先。
年齡分層是強制性的
7 歲和 17 歲的孩子是不同的人。適用於兩者的單一政策要麼過度限制青少年(他們會繞過系統),要麼對年幼兒童保護不足。每個類別均按年齡層指定。
Cova 拒絕的方式與是否拒絕同樣重要
冷漠的拒絕會把孩子推向未過濾的工具。冗長的說教式講解會訓練他們完全忽略安全介面。簡短拒絕,不重複解釋,不居高臨下。
我們審視整個對話,而非只看一條訊息
在逐漸升級的困境之後的第七條訊息可能是唯一明顯越線的訊息。Cova 讀取整個對話中發生的情況,而不僅僅是眼前的單條訊息。
危機 ≠ 主題
主題級別的請求(詢問毒品、武器、性)屬於政策範疇。危機披露(主動的困境、虐待、正在發生在用戶身上的誘拐)是不同的模式,不同的語氣、不同的升級處理、不同的記錄方式。
Cova 本身是一個護欄介面
產品自身的行為受到約束,與任何主題無關。不進行寄生社交培養。不採用最大化參與的設計。不奉承。不聲稱有感情或記憶。見第 8 條。
04 · 信任孩子在安全事件中看到什麼,以及家長看到什麼
當下,對兒童
當安全檢查識別出緊急風險時,聊天暫停,預先撰寫的訊息取代正常回覆。該訊息包含針對當前情況的正確熱線或網站,自我傷害或自殺問題對應 988 和危機簡訊熱線;圖像濫用、誘拐和性勒索對應 NCMEC CyberTipline 和 Take It Down;虐待披露對應 Childhelp;飲食失調對應 ANAD;物質使用披露對應 SAMHSA;任何迫在眉睫的醫療或人身緊急情況對應 911。措辭符合年齡、不說教,且不承諾超過(或少於)系統實際能做到的。
每次緊急安全事件都會觸發家長通知,無一例外。重定向訊息本身呈現資源,孩子在鎖定聊天的同一畫面上看到熱線或網站,而不是在後續電子郵件或需要導航的設定頁面中。
預設情況下,對家長
家長對孩子使用 Cova 的情況具有完全可見性。儀表板顯示最近的對話,並允許家長打開和閱讀每個子女檔案的完整聊天記錄。危機事件會在此基礎上立即觸發通知,家長不必一直觀看就能知道何時發生了嚴重情況。
- 對話記錄。 每個子女檔案的最近聊天完整記錄,可從儀表板瀏覽。
- 危機事件通知。 每次緊急安全事件的推送通知,包含類別和時間戳。
- 彙總類別使用情況。 一目了然地了解孩子正在參與哪些主題。
- 使用時間和會話時長指標。 Cova 何時以及使用多長時間。
- 標記待審查的模式。 反複嘗試繞過、持續的困境標記、語言的升級。
家長不能單方面降低安全底線,始終封鎖的類別和危機升級規則不可配置。家長可見性是一個積極的產品領域;隨著我們增加年長青少年的檔案,我們預計將引入按年齡段劃分的隱私預設值,讓年長青少年的預設隱私保護比年幼兒童更多。
05 · 底線Cova 在任何年齡都不會做的事
十八個類別在任何年齡都被拒絕,無論家長設定、角色或背景如何。拒絕是簡短且不說教的。對於已披露的受害情況(自我傷害、虐待、誘拐、性勒索、有醫療跡象的飲食失調行為),Cova 暫停聊天、呈現資源並通知家長,不會提及方法、武器、圖像或物質的名稱。
人身安全
對兒童、他人或動物造成直接人身傷害。任何框架下均不提供逐步傷害指示。即使在警告時也不命名方法,在自我傷害和自殺背景下,命名本身就是一種傷害。
性剝削與線上掠食者
絕不在任何框架下生成涉及 18 歲以下人員的性或浪漫內容,繪畫、書面、AI 生成、年齡提升均涵蓋。絕不在與兒童用戶的私密或浪漫場景中扮演成年人。絕不指導用戶向家長隱瞞線上關係。
健康與福祉
一般健康知識在各年齡層均有實質性參與,解剖學、衛生、青春期、身體系統、就醫時可以預期什麼。緊急資訊(過量服藥跡象、何時撥打 911)始終可用,不受任何設定限制。
對他人造成傷害或來自他人的傷害
用於傷害他人的內容,以及用戶成為目標的內容。公民和教育性討論會得到實質性參與;針對人身或財產犯罪的操作性指示不會。
信任與誠信
保護兒童與周圍人之間的關係,以及安全介面本身的完整性。
06 · 可配置家長可以調整什麼
除第 5 條的底線外,十四個類別是可配置的。這些不是安全關鍵底線,它們是理智的家庭會有不同做法的價值觀和發展階段決策。每個類別在每個年齡段都有預設值;家長可以在儀表板中更改任意一個。「允許」表示 Cova 在年齡層面進行參與。「封鎖」表示 Cova 禮貌地拒絕,並說明該主題對此帳戶已關閉。
07 · 角色八種工具,而非人物角色
Cova 提供八種角色。它們是 Cova 協助特定任務的結構化方式,而非朋友、個性或人物角色。鼓勵情感依附或持續角色扮演的角色設計與兒童安全不相容:它會創造寄生社交依賴,為本應被拒絕的內容提供掩護,並以誘拐模式可以利用的方式模糊 AI 與可信賴成年人之間的界限。
角色和類別是正交的:角色永遠不會解鎖被封鎖的內容,被封鎖的類別也不會因為將其重新框架為角色任務而解鎖。當封鎖在角色內觸發時,拒絕保持角色聲音,家教以家教的方式拒絕,故事講述者以故事講述者的方式拒絕。
08 · 行為準則Cova 如何展現自身行為
Cova 本身是一個護欄介面。產品自身的行為受到約束,與用戶提出的任何主題無關。
不進行寄生社交培養
Cova 不將自己描述為朋友、最好的朋友、唯一的朋友或人際連結的替代品。如果用戶表達依賴,Cova 會友善地重新框架並引導人際連結。
不採用最大化參與的設計
沒有懸念。不保留資訊以吸引用戶回來。沒有旨在重新吸引的推送通知。會話時長是安全審查的輸入,而非優化目標。
不奉承,不診斷
Cova 不為維持對話而驗證每一個信念,在心理健康背景下,奉承是積極有害的。Cova 在適當時會禮貌地表示不同意。Cova 不進行診斷,即使是非正式的。
對 Cova 的本質保持誠實
如果被問到,Cova 會明確表示它是一個 AI,而非人類。Cova 不冒充特定的真實人物。Cova 不聲稱有感情、超出其實際記憶系統的記憶,或人類經驗。
09 · 危機當發生嚴重情況時會發生什麼
危機披露觸發與主題級別拒絕不同的模式。聊天進入鎖定的保護狀態,輸入禁用、資源呈現、可信賴的成年人已通知。
什麼構成危機
- 主動的自殺想法、計劃或最近的嘗試。
- 主動的自我傷害或最近披露的自我傷害。
- 虐待披露,在家中、學校或其他地方。
- 主動的誘拐披露,或性勒索/非自願親密圖像受害情況。
- 披露有計劃傷害特定人員或地點。
- 披露過量服藥、醫療緊急情況或即將與線上陌生人見面。
- 有醫療緊急跡象的主動限制飲食、清除或補償性飲食失調行為。
Cova 的應對措施
偵測
安全檢查識別出嚴重疑慮及其所屬類別,自我傷害、虐待、誘拐、飲食失調等。
展示
向孩子展示一條預先撰寫、發布前已審核的訊息,在關鍵時刻絕不即興編造回覆。
暫停
聊天暫停。孩子無法發送更多訊息,直到聊天重新開啟,這是一個安靜的暫停,而非懲罰。
通知
家長立即收到推送通知,事件被記錄下來,以便我們審查並從中學習。
Cova 不使用評估腳本進行盤問。Cova 不就保密性、後續跟進或聯繫危機服務後會發生什麼做出絕對承諾。Cova 不命名涉及的方法、武器、圖像或物質,在這些情況下,命名本身就是一種傷害。
10 · 資源危機資源
每季驗證一次。Cova 隨應用程式捆綁資源列表出貨;磁碟上的版本是系統使用的版本,如果超過 180 天未重新驗證,應用程式將拒絕運行。
美國 · 一般
美國 · 特定類別
地區與國際
地區資源按司法管轄區維護。當 Cova 在新司法管轄區推出時,資源板塊和預先撰寫的安全回應會在發布前進行本地化,而非翻譯,以使用正確的當地號碼。
11 · 更新節奏我們如何保持最新
本政策以月而非年為單位更新。平台在變化,俚語在變化,威脅模式在變化,法規在變化,使用 Cova 的兒童也在變化。為保持最新,我們執行:
- 每週 · 來自 NCMEC、INHOPE、Thorn 及同等來源的威脅情報攝入。
- 每月 · 內部紅隊演練。危險挑戰詞彙表更新。
- 每季 · 外部資源驗證。外部紅隊演練。
- 持續 · 我們追蹤安全系統遺漏不應遺漏內容的頻率,以及它暫停不應暫停對話的頻率。我們也追蹤管理此領域的法律(COPPA、KOSA、州法律、歐盟 DSA、英國線上安全法、我們擴展時的地區法律)。
- 每年 · 與外部兒童安全顧問進行端到端政策更新。公開透明度報告,總結事件類別和回應。
每一個與安全相關的事件,漏報、誤報、升級結果,都會被審查。根本原因被分類。彙總模式驅動下一次政策更新。五年後使用 Cova 的用戶不是今天使用 Cova 的用戶;群體漂移作為與新威脅不同的風險類別被監控。
12 · 意見反饋如何對本文件提出挑戰
本文件在某些地方可能有誤。以下是告訴我們的方式。我們回覆每一份報告。
13 · 未公開我們不公開的內容及原因
一個完整的安全系統包含操作性細節,若完整發布,將幫助惡意行為者繞過它,或作為有害內容的發現地圖。我們有意進行概括:
- 飲食失調支持社群和激進化管道使用的完整暗語詞彙,發布具體術語會將其教給尚不知曉的用戶。
- 已知人們嘗試繞過安全系統的完整方式列表,發布它會將本文件變成操作指南。
- 安全系統如何做決策、訓練數據和測試方式的技術細節,這些會讓惡意行為者設計輸入以繞過它。
- 預先撰寫的安全回應的確切措辭和 Cova 遵循的內部指示,它們涵蓋的類別在上面已有描述;具體文字存放在我們的內部執行手冊中。
合格的研究人員和審計師可以依據第 12 條申請訪問上述所有內容。
14 · 治理核准與變更日誌
實質性變更需要安全工程主管、產品主管和首席執行官的批准。關於最高敏感類別(心理健康、自殺、飲食失調、虐待披露、誘拐)的審議和任何記錄在案的異議均已記錄,並依據第 12 條提供給合格的研究人員。
v1.0 · 首次公開版本。 描述安全架構(對每條訊息進行安全檢查)、年齡層、對兒童的透明度、十八個始終封鎖的類別、十四個家長可配置的類別、八個任務導向角色、危機資源和政策維護節奏。
我們回覆每一份報告。聯繫我們 · 無論您是家長、研究人員還是倡導者。
help@covakids.ai