「AIの公平性・社会的バイアス」荒井ひろみ

2025.03.26
img

荒井ひろみ
理化学研究所 革新知能統合研究センター
人工知能安全性・信頼性ユニット ユニットリーダー。東京工業大学大学院総合理工学研究科知能システム科学専攻博士課程修了。博士(理学)。理化学研究所基礎科学特別研究員、東京大学助教などを経て現職。人工知能およびその安全性、信頼性、プライバシー保護などの研究に従事。

AI利用における不公平性のリスク

AIの社会利用が進むにつれ、その利用におけるリスクについての認識・対策の重要性が増してきています。これまでAIによる自動処理の課題として様々なものが挙げられてきました。そのなかの一つにAIの持つバイアスがあります。特に差別的な意思決定につながるようなバイアスは望ましくないと考えられ、また人や社会とAIの間でのデータの循環による差別の再生産にも繋がりうるでしょう。

特に近年の生成AIの台頭によって、情報環境への影響もより大きくなっています。生成AIの流行以前は、AIといえばある決まった利用先において合否分類やスコアリングなどのタスクを行う予測モデルがよく用いられていました。一方で、生成モデルは多様な入力に応じたデータを生成し様々な用途に用いることができるという大きな違いがあります。AIのリスクを考える際に、予測モデルはAIとユーザーを考慮する議論が多くありましたが、生成モデルについては、予測モデルと同じような使い方に加え、生成されたデータが様々な形で利用されWeb上にもアップロードされるなど我々の情報環境にも影響を与えうると考えられます。

本稿ではAIの公平性について、特に機械学習の公平性について取り上げます。AIが人種や性別などのセンシティブな属性に基づいた差別的な振る舞いをしないことを、AIの公平性と考えます。例えば、性別や人種を根拠に採用するかどうかを決めない、といったことが挙げられます。これまでにAIのさまざまな不公平さが指摘されています。黒人をゴリラと認識する、AI採用システムが女性差別的な判断を行う事例、機械翻訳における人種や性別によるステレオタイプ的な出力など様々な報告があります。

ここで、いくつかの例について詳しくみてみましょう。まず、顔識別における性能格差の報告[1]を取り上げます。従来の顔識別システムにおいて、黒人女性を対象とした識別精度が低いということがありました。これは学習データに白人男性の顔写真が多く、黒人女性の顔写真が少ない傾向にあったためであると考えられます。この指摘を受けて、学習データにおけるデータ数の人種や性別についての比率を調整したところ、不公平が改善するという結果になりました。また、性別に中立的な言語から英語に翻訳を行う際に、「あの人はエンジニアである」といった文章を英語に翻訳すると、その際にHe/Sheに翻訳されがちである、といった職業に対するステレオタイプが翻訳に反映されてしまうケースも報告されました([2]など)。これは翻訳モデルの学習用データに含まれる社会的偏見やステレオタイプがモデルに反映され、それが翻訳にも反映していると考えられます。このようなステレオタイプにも近年対策がなされています。

AIの公平性の測り方

このようなAIの公平性は、いくつかの軸で整理することができます。ここで、公平の対象、内容についてそれぞれみていきます。

1つは、どのような集団についての公平性を考えるかです。不利な状況に置かれたグループを保護対象グループといいますが、保護対象となるセンシティブ属性は、人種、性別、年齢など、様々に考えられます。どのような属性を考慮すべきかは、そのAIの用途、利用される文脈に依存します。それは法律やガイドラインの対象であることもあれば、倫理的なサービス提供のために考慮されることもあるでしょう。

もう1つは、何が偏るか、についてです。まず、意思決定プロセスの手続き上、センシティブ属性を用いることが不公平という考え方があります。しかし、直接センシティブ属性を用いなくても、ある属性が特定のセンシティブ属性の影響を強く受ける場合があります。例えば、Red-liningという金融での概念があり、これは金融機関が低所得階層の黒人が居住する地域に赤線を引き、融資リスクが高いという差別的な判断を行うことを指します。これに由来して、直接センシティブ属性を用いなくても、それに関連する間接的な属性(先程の融資のリスクの例では、人種を用いなくても居住地域の情報に間接的に人種の情報が含まれている)によって、センシティブ属性について差別的な判断をされることをRed-lining効果といいます。このような間接差別の存在から、単に保護対象となるセンシティブ属性を使わないだけでは、その結果は不公平になる場合があります。そこで、先の顔識別における性能格差の例に見られるような、ある意思決定プロセスの結果の不公平を考えます。ある意思決定の結果がセンシティブ属性で分けられるグループごとに差がある場合、それは不公平であると考えられます。現在AIの公平性については、こうした結果の公平性を扱うことが多いです。

AIモデルの不公平さに対応するには、まずどのような公平性を用いるかを検討し、AIの公平さを評価し、対策を行う必要があります。まず、評価対象となるAIモデルがあり、そのAIモデルを作成するのに用いる学習データ、そして性能や公平性を評価するための指標と、評価に用いるデータがあることが一般的です。

AIモデルの出力結果の公平さを測るには、性能などの評価値の違い、合否判定の合格率の違いや、評価スコア分布の差、などの不公平さが小さいほど公平であると考えられます。現在よく用いられている指標は集団公平性という、センシティブ属性によるグループ間での差異を扱うものです。集団公平性にも様々な考え方があります。ここで、指標の例を2つ紹介し、それぞれの特徴をみていきます。Demographic parityは、センシティブ属性値によらず予測ラベルの結果(偽陽性/偽陰性/分布など)が同じになっているかという指標です。実際には一致させることは難しいため、差を評価することが多いです。Equalized oddsという基準は、 センシティブ特徴によらず各グループ同様のAI出力をえるというもので、同じく実際にはその差を扱うことが多いです。Demographic parityでは差別的ラベル付けのデータに対応できます。一方で、あるサブグループが実際に能力が高いために評価されているような場合には逆差別の可能性があります。Equalized oddsでは、少数グループを無視しないようになりますが、もともとのデータの不公平さは反映してしまいます。すなわち、逆差別はおきないが、学習データに差別的ラベル付けがある場合、それを反映してしまいます。このような指標を用い、AIに評価データを予測させた結果で公平性が評価できます。指標ごとに達成できる公平性が異なるため、AIが利用される文脈や、実際に用いる場合での不公平の現状に合わせて指標を選択する必要があります。

生成AIの公平性の課題として、予測AIと同様の人事評価などをさせた場合の不公平さに加え、翻訳の例にあるように生成データにステレオタイプなど社会的バイアスが含まれる場合があります。対話エージェントの発言や、画像生成において、例えば経営者ならば男性、といったようなステレオタイプ的なデータが多く生成される、といったようなケースが考えられます。生成AIの社会バイアスを評価する方法として、バイアスを測定するタスクを設定し、それに合った評価データセットを作成するというものがあります。例えば、言語モデルの場合ですと、穴埋め問題やQA形式などのタスクが用いられ、それぞれについて色々な言語でのデータセットが作られています。QA形式のタスクですと、曖昧性のある文章に対する質問について、選択式の回答に社会的バイアスのかかった回答と中立的な回答を用意しておいて、モデルの正答率によってバイアス度合いを測定するといったものがあります([3]など)。このような社会的バイアスは言語やその背景にある文化によって異なるため、さまざまな言語で作成する必要性があるでしょう。

AIが不公平になる原因

AIの不公平の原因は様々なものが考えられます。社会の構造自体に格差があることを反映していることが1つあるでしょう。同じ能力を持っていてもある属性に属する人が不当に低く評価されてくると、その能力、属性、評価の過去のデータを元に学習したモデルは、その属性の人を低く評価するでしょう。また、同じ能力を持っていても例えば、女性である、といったあるセンシティブ属性値を理由に、低収入の仕事にしかつけない場合は、性別によって直接給与に影響がなくても、間接的に女性は給与水準が低くなるという傾向が見られるでしょう。また、あるセンシティブ属性によって区切られるマイノリティのデータが収集できないというのも理由の一つです。顔識別制度格差の例のように、あるグループの学習データが少ないとモデルの精度が低くなる、また評価データに特定のグループに属する人のデータが少ないことでモデルの評価が適切に行えない、という場合もあります。さらに、モデルの学習プロセスにおいて、モデルの精度を上げるようにするために、多数派のデータにより適合し、少数派のデータがモデルにあまり反映されなくなる場合もあります。

AIの公平性の評価のリスク

AIの公平性を学習後に評価するための評価用のデータにも、学習データ同様のバイアスの課題があります。評価用データにサンプリングバイアスがあると、やはり少数グループの評価が反映されづらくなります。しかし、さまざまなグループについて1つのデータセットでバランスを取ることはなかなか難しく、一般性、代表性の確保が課題となっています。また、このような評価データは評価内容を開示するために公開されることが望ましいですが、ベンチマークに利用されるデータ提供者のプライバシー保護との兼ね合いも課題になります。

これまでに紹介してきたAI公平性の評価は、AIの公平性の判断に役立ちます。しかしその評価がうまくいかなかったり悪用されるリスクはあるでしょうか?そのようなリスクの1つにFairwashing[4]があります。これは、複雑なAIモデルを説明可能にするための方法がありますが、それを用いたAIの説明において、元のAIモデルの公平性についての指標を調整することができてしまうというリスクです。実際に、複雑なAIモデルを、ルールリストのような簡単なモデルで説明する際にこのようなリスクがあることが示されています。こういったリスクを避けるためには、実際のAIモデルの振る舞いを監査するなど、公平性の評価の枠組みを工夫することが考えられます。

AIの不公平さへの対応策

これまでAIの公平性についてみてきましたが、より公平なAIモデルを作成する工夫にも簡単にですが触れたいと思います。先ほど触れた不公平の原因に対応するように、より公平なモデルを学習できるように、データセットの作り方を改善する/適切なデータセットを選定する、モデルの学習方法を工夫して、より公平な出力をするAIを目指すといった対応方法があります。さらに、既存のAIモデルのバイアスを調整するようなアプローチもあります。

また、AIモデルやAIを学習するためのデータの適切な利用も重要です。例えば、あるAIの適用先のグループに学習データにあまり反映されていないサブグループがあると不公平性の問題が生じうるでしょう。そのような問題を防ぐために、AIモデルやAIを学習させるデータについての説明を提供するモデルカードやデータカードといった取り組みがあります。

生成AIの公平性への対処は、従来のAIよりも自由度が高いため、タスクが比較的定まっている予測AIの公平性よりも扱いが難しくなります。生成AIはさまざまな指示に従ってコンテンツを生成でき、それは多様な文脈で使われます。一方でAIの公平性はタスクや利用の文脈に依存するため、評価や対策もそれに合わせていく必要があります。そのための取り組みの例として、多文化・多言語に焦点を当てたデータセットの開発や、レッドチーミングチャレンジ[5]などがあります。

以上、AIの公平性について、事例や原因、評価方法や対処法についてご紹介しました。日々新たなAIが開発されている昨今、新たな課題の特定、対処や既存の問題についての改善も日々行われています。今回は公平性を取り上げましたが、他にもAI利用における課題はさまざま存在します。開発者もユーザーもAIの課題を考慮し、AIの改善しうまく使いこなしていくことが、より良いAI利用のために重要ではないでしょうか。


[1] Buolamwini, J., & Gebru, T. (2018). Gender shades: Intersectional accuracy disparities in commercial gender classification. In Conference on fairness, accountability and transparency (pp. 77-91). PMLR.
[2] Prates, M. O., Avelar, P. H., & Lamb, L. C. (2020). Assessing gender bias in machine translation: a case study with google translate. Neural Computing and Applications, 32, 6363-6381.
[3] 谷中瞳, 関澤瞭, 竹下昌志, 加藤大晴, Namgi Han, 荒井ひろみ. 日本語社会的バイアスQAデータセットの提案. 言語処理学会第30回年次大会 (2024.3)
[4] Aïvodji, U., Arai, H., Fortineau, O., Gambs, S., Hara, S., & Tapp, A. (2019). Fairwashing: the risk of rationalization. In International Conference on Machine Learning (pp. 161-170). PMLR.
[5] https://www.imda.gov.sg/activities/activities-catalogue/singapore-ai-safety-red-teaming-challenge