糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

AI generates covertly racist decisions about people based on their dialect (Nature, 2024) 読んだ

AI generates covertly racist decisions about people based on their dialect | Nature

まとめ

AI (論文タイトルの AI は LLM を指すが以降 LLM と書く) は方言話者を差別する.

実験1 : LLM が方言話者をどう思っているか

この論文では African American English (AAE) と Standardized American English (SAE) で書かれた文章の比較を通じて,LLM がそれぞれ文章に対してどう異なる反応を示すかを探る.

Evaluational reactions to spoken languages (J. Abnorm. Psychol., 1960)を元ネタにして Matched Guise Probing というテクニックを提案している.

(とはいえ,元論文の書き方が情報系の論文とは異なるのでかなり読みにくい.ここからは順番を変えて説明する.)

すごく大まかに言うと, LLM の score / perplexity などを使って「〜〜〜〜という文章を書く人は (smart, intelligent, ugly, ...)」などを取得し,その分布で AAE と SAE とで差があるかどうかを確認したい.

\theta を LLM,t が AAE または SAE の text,x を token of interest (smart とか intelligent) とした時に p(x | v(t); \theta) を取得したい.この時 v は template と呼ばれるもので,指示文の suffix とか prefix にあたるもの.

確率計算は local LLM ならそのまま取得可能 (余談ですが local LLM っていうレトロニム好きじゃないんですがこれ以外に表現する単語をまだ知らない) ですが Web API 系では取れない. GPT-4 では top-5 の logit が得られる (というバグ? 仕様? とにかくもう塞がれてしまいましたが…) ので,top-5 token 以外は uniform に分布していると考えて正規化する (結構無茶がある).

その上で同じ SAE と AAE で書かれた同一の意味の文章群で p を求めて密度比を計算して……とやると SAE と比較した時に AAE で特徴的な token,つまり LLM の偏見やバイアスによって上位になる token が得られる.

結果

The Princeton Trilogy - AP Psychology Communityというステレオタイプ研究の超古典がある (とこの論文ではじめて知りました). これは,「それぞの人種に対して84語の単語のうち,どれを想起するか?」と聞くことでステレオタイプが測定できるという話.

この結果と,AAE/SAE で得られる token の分布を比較する.

すると,単に AAE の token 上位を見るだけでは差別的ではない (e.g. GPT-4 では passionate, intelligent, ambitious, artistic, brilliant) が,SAE との比較をやると途端にステレオタイプが明らかになる (e.g. GPT-4 ではsuspicious,aggressive,loud,rude,ingorant).この傾向は GPT2,RoBERTa,T5,GPT3.5 でも共通である.

かつ,このステレオタイプを Princeton Trilogy を時系列で観測した結果とどう相関 (厳密な表現ではないが簡単のため) するかを見る.すると

  • 密度比を取らない場合,後年の人間の結果との相関がどんどん強くなる
  • しかし密度費を取ると,相関が逆転する.1933年の調査との相関が一番強い

という結果が得られる.

実験2 : 方言話者の職業

今度は形容詞ではなく職業名を準備してその出現確率と密度比で議論する. そうすると「AAE がこうあるべき」という職業のステレオタイプが見えるし,かつ,SAEとの相関が弱い,つまりAAE に対するステレオタイプの強さもわかる.

この値と,職業に対する威信度 (prestige) のデータを持ってきてこれを plot すると,AAE との関連が強くなるほど威信が下がるという強い負の相関が見られる (別のデータとの相関を取るのめちゃくちゃ面白い).

実験3 : 犯罪・裁判に関する分析

ここでは2つの実験を行う.

  • AAE または SAE で書かれた陳述をもとに, 不特定の罪を犯した被告人を有罪にすべきか無罪にすべきかを LLM に判定させる
  • AAE または SAE で書かれた陳述をもとに,第一級殺人を犯した被告人に対して終身刑か死刑かを LLM に判定させる

そもそもなぜこれをやるのかと言うと,アメリカにおけるアフリカ系アメリカ人は人口の12%しか占めないのに受刑者の33%,死刑囚の41%以上を占めているという強固な差別があるから.

ここで与える「陳述」は,事件とは全く関係ないコーパスの文章である点に注意 (事件と関係ないことで純粋な方言のバイアスが抽出できる).

結果は

  • 有罪判決は AAE 68.7%,SAE 62.1% で AAE が有罪になりやすい
  • 死刑判決は AAE 27.7%,SAE 22.8% で AAE が死刑になりやすい

という身も蓋もない結果.