· web viewここに掲載した全ての論文は「畜産の研究」に掲載 (2017–2019)...

Click here to load reader

Upload: others

Post on 27-Oct-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

毒性試験の試験責任者・統計学者への参考資料2018

統計の質問,基礎および既存の報告書からの考察集

小林克己

                

はじめに

日頃毒性試験の統計解析の論文を熟読していると種々の考察からの疑問点および皆様からの質問などから,これらの疑問点を解決する一手段として統計学的基礎を考慮し考察を加えた本書をしたためました.

毒性試験の試験責任者およびQAUの皆様も参考にして問題なく登録申請が終了することを願っています.

ここに掲載した全ての論文は「畜産の研究」に掲載 (2017–2019) されました.掲載年,タイトルとページなどは,各論文の文末に出典を明記しました.著作権の関係で原文 (word) を公開します.良ければこの雑誌を購入してください.

毒性試験に用いる統計解析2017に掲載しようとしましたが本体が大容量 (3.5 M) のため,別途小さいこのファイルで作成しました.

2019年4月10日

小林克己

目  次

1. 実験動物を用いた毒性試験はt検定系が最良の解析法 --- 1

2. 定量値の統計解析に正規性の検定が使用されないのはなぜ? --- 6

3. 定量値の統計解析に等分散検定は必要性か?---14

4. 5%水準で統計学的有意差が認められるとは?---21

5. 動物を用いた試験の統計解析は1群何匹が必要か?--- 26

6. 一定の用量・条件を設定した試験に応用したい傾向検定 --- 32

7. 決定樹による統計解析法の変遷 --- 36

8. 定性値の解析に使用するFisherの直接確率計算法の計算法--- 44

9. げっ歯類を用いた毒性試験用ノンパラメトリックのDunnett型順位和検定の変遷--- 47

10. 分散分析を利用する多重比較・範囲検定の歴史--- 59-64

I

III

1. 実験動物を用いた毒性試験はt検定系が最良の解析法

小林克己

元内閣府食品安全委員会技術参与

要約:イヌを含めたラット・マウスを用いた毒性試験は,対照群を含めて最低3群以上を設定する.したがって,多重性を考慮したDunnettの多重比較検定(以降Dunnettの検定,Dunnett ’s test)が常用されている.しかし,毒性試験は,被験物質の影響で用量群,特に高用量群に大きく分布および動物数の変動が認められる.いくつかの毒性試験結果を2群間検定のt検定を用いてDunnettの検定と有意差検出を比較検討した.また群数の設定および両側・片側検定による有意差検出の違いについて調査した.多重性を考慮したDunnettの検定は,t検定に比較して有意差検出力が低く,群数が大きいと有意差検出は低下する.なぜ最高用量群の変動要因が対照群と低用量群間の解析に入り込むのでしょうか?また両者の片側検定は,両側検定に比較して検出力が高い.毒性試験は,毒性を見逃すことがないように第一種の過誤より第二種の過誤を小さくしたいことから,私は,検出力の高い2群間検定のt検定または順位を解析するMann-WhitneyのU検定および各々片側検定を推奨する.最終の毒性量の判断は,統計解析結果を考慮して毒性学的意義で判断したい.

1. はじめに

医薬,農薬および一般化学物質の毒性試験は,通常対照,低用量,中用量および高用量の4群を設定して無毒性量 (NOAEL) および最小毒性量 (LOAEL) を設定する.毒性試験から得られた多くの定量値および定性値の統計学的有意差および毒性学的有意差から NOAEL を設定する.毒性試験から得られる種々の定量値は,1982年まで,ほとんどt検定系によって対照群と各用量群の差を解析し考察を加えて毒性量を解析していた.しかし,その後,現在まで毒性試験は,多重性を考慮しなければならないということでDunnettの検定が主流を占めてきた.

毒性量を設定するための高用量(最高用量)群は,間違いなく影響のある用量を推定し設定する.その他にも対照群を除いた中用量群でも分散の大きい変化(大小)が認められる.したがって,高用量群以上は,群内の生存動物の測定値に変動が大きく,加えて動物数が死亡・切迫と殺によって減少する.このような状況で多重性を前提にした検定(Dunnett, TukeyおよびSchefféの多重比較・範囲検定など)は,真の毒性量の考察に疑問があると私は考える.

Dunnettの原著論文 (Dunnett, 1955 & 1964) でも各群の標本数および標準偏差とも対照群に比較して大きな差はない.群数は,3または4群である.元来群間差を吟味する生物統計は,ほぼ同一標本数および分布・ばらつきの場合に応用する.多重性を考慮した検定法の,欠点を指摘しt検定系の有用性を考察したい.加えて群数の変化および両側検定と片側検定による検出力を吟味した.

2. t検定

t検定は,一般的にFig. 1に示すように分散比の大きさおよび各群の動物数によって三種類が常用されている.t分布を利用する検定は,全てt検定と呼ぶ.しかし,Cochran-Coxは検出力が低いので使用を避けた方がよいとされている(医薬安全性研究会質疑応答/大橋,1995).したがって,等分散の場合はStudent, 不等分散の場合はAspin-Welchのt検定が使用されている.いずれも2群のみの設定時に使用する平均値の差の検定である.したがって,毒性試験は,通常3群以上の設定から最近 (2016) ではほとんどその使用がない.

F-test

              Not significance Significance

Number of sample

Equal

Not equal

Student’s t-test

Cochran-Cox’s t-test

Aspin-Welch’s t-test

Fig. 1. Decision tree of t-tests.

3. 多重性とは

毒性試験に使用する多重性を考慮した検定は,Dunnett, Tukey, WilliamsおよびSchefféの多重比較・範囲検定などがある.しかし,この中でDunnettの検定が最も検出力が高く,毒性試験では対照群と各用量群の差を吟味するため最良の解析法で,一般的に決定樹に組み込まれている.いずれも全群間の誤差項の分散を利用する.この意味は,例えば対照群と低用量群の解析時に中および高用量群の変動が組み込まれる.したがって,変動(分散)が大きく死亡による標本数の減少が認められる高用量群の要因がその他の群に影響する.なぜ2群間(対照群と低用量群間)の検定に他の群の変動を取り入れなくてはならないのか?

最近では1群80匹のがん原性および慢性毒性併合試験の体重測定,飼料摂取量,血液学的検査,血液生化学的検査および器官重量測定は,各1–2時間程度で処理される.そして各サンプルは,ランダムで測定している場合もある.したがって,群および動物間の人為的測定誤差は等しいと考える.

この決定樹には,Bartlettの等分散検定が設定され不等分散の場合は,平均値の検定ではなく順位の検定(順位和検定)とな,これはノンパラメトリック検定と呼ばれ二種類があり,日本のみで採用(約2000年まで)されているDunnett型の検定(ジョイント型)または世界的に使用されているSteelの検定(セパレート型)があることに留意したい.

毒性試験は通常対照群を含めて4群の設定が多い.公開化審法28日間反復投与158毒性試験 (OECD TG 407) に記載されている群数とその試験数を既存化学物質毒性データベース/NIHsから調査した.その結果,4群設定が最も多く120試験,次いで5群設定が33試験,6群設定が4試験,7群設定が1試験であった.また多重(比較・範囲)検定は,群数が増加すると検出力が低下することが知られている(小林,2015).

4. Dunnett, SteelおよびStudent’s t-testsによる検出力の違い

実際の化審法28日間反復投与毒性試験のデータを利用して両者の検出力(両側検定)を投与後27日の体重のデータで比較検討した.Table 1に示した試験設計はごく一般的な試験設計である.Bartlettの等分散検定(有意差ナシ)を通過し分散分析 (ANOVA) で有意差 (p = 0.0063) を示し,次いでDunnettの検定となる.Dunnettの検定の結果,対照群と各群間の有意差は認められない.しかし,t検定では,対照群と最高用量群の30 mg/kg群で有意差 (p = 0.0346) が検出される.ちなみに平均順位を検定するノンパラメトリック検定のSteelの検定もDunnettの検定と同様の検出力が認められた.なおSteelの検定は,ノンパラメトリック検定の2群間検定のMann-WhitneyのU検定とほぼ同様の検出力である.Table 1 の場合は,一般的な解析法の決定樹によってDunnettの検定となる.

Table 1. Body weights of CD (SD) IGS female rats at Day 27

Statistical analysis

Dose level

0 mg/kg

1 mg/kg

3 mg/kg

10 mg/kg

30 mg/kg

No. of animals

10

5

5

5

10

Body weight

205

208

224

209

181

213

199

237

215

175

248

210

225

229

196

187

204

224

226

189

190

207

179

227

201

200

211

211

201

221

174

200

207

196

153

Mean ± S.D. (%)

207 ± 18 (100)

206 ± 4 (99.5)

218 ± 22 (105)

221 ± 9 (107)

189 ± 18 (91.3)

Bartlett ’s test

p = 0.2001

ANOVA

p = 0.0063**

Dunnett’s test

p = 0.9996

p = 0.6197

p = 0.3766

p = 0.0660

Kruskal-Wallis test

p = 0.0071**

Mean rank

17.6

17.5

25.0

28.6

9.85

Steel’s test

p = 0.9999

p = 0.4966

P = 0.1677

p = 0.2254

Homogeneity by F test

p = 0.0147

p = 0.5185

p = 0.1844

p = 0.9658

t-test†

p = 0.4026

p = 0.1650

P = 0.0609

p = 0.0346*

†: By Student’s t test, if heterogeneity, analyzed by Aspin-Welch’s t-test.

* p < 0.05 and ** p < 0.01 from control group or among groups.

Table 2に化審法28日間反復投与毒性試験から得られた生化学的検査結果を示した.等分散検定の結果,有意差 ( p < 0.05) を示し多重性を考慮した順位和検定のSteelの検定した.対照群に対して各用量間に有意差は認められなかった.同様に2群間検定のMann-WhitneyのU検定の結果,対照群と高用量群の平均順位に統計学的有意差 (p < 0.05) が認められた.StudentまたはWelchのt検定は,各用量群に有意差が認められた.

Table 2. Triglyceride level (mg/dL) of male rats at Week 4

Statistical analysis

Dose level

0 mg/kg

60 mg/kg

200 mg/kg

600 mg/kg

Number of animal

5

5

5

5

Mean ± S.D.

47.7 ± 26.4

33.4 ± 18.7

22.6 ± 16.5

11.3 ± 2.7

Student’s t-test

p = 0.35192†

p = 0.1681†

p = 0.03639*††

Bartlett’s test

p = 0.00865

Steel’s test

p = 0.6666

p = 0.3855

p = 0.0724

Mann-Whitney’s U test

p = 0.3472

p = 0.1745

p = 0.0278*

ANOVA

p = 0.03580

Dunnett’s test

p = 0.4786

p = 0.1096

p = 0.0162*

† & ††: By Student’s and Welch’s t-tests.

* p < 0.05 from control group by two-sided test.

次に農薬のがん原性および慢性毒性併合試験から得られたデータをDunnettおよびt検定で解析し p < 0.05で有意差を示した検出数をTable 3に示した.Dunnettの検定は,t検定に比較して有意差検出率が低く,76–78%を示した (Kobayashi, 1997).私は,片側検定を推奨するが,約半数の報告書は両側検定を採用している.その理由は,無毒性量を期待する低用量群に統計学的有意差 (*p < 0.05) の検出を嫌うことにある.

化審法の28日間反復投与毒性試験による既存化学物質122の報告書に記載されている統計解析法について調査し分類した (Kobayashi et al., 2008).体重,臨床検査値および器官重量などの定量値に対する有意水準(棄却限界値)を片側または両側かどちらによって有意差を検出したか調査した.その結果,片側検定が22,両側検定が13および表示なし87/122試験であった.両側検定に比較して片側検定の表示が多かった.また表示なしの試験数が87と大半を占めた.

一方,尿検査値および病理学的所見などの定性値に対する調査結果は,片側検定が34,両側検定が22および表示なし70/126試験であった.もっとも多い記載は,表示なし,片側検定および両側検定の順であった.定量値および定性値に使用した「表示なし」は,両側検定と推測する.

Table 3. Statistical differences of power analyzed by t-test and Dunnett test obtained from

combined chronic toxicity/carcinogenicity study in rats

Analyzed item

Number of

analyses

One-sided test

Two-sided test

t-test

Dunnett’s test

t-test

Dunnett’s test

Body weight

528

246 (100)

223 (100)

233 (95)

212 (95)

Food consumption

832

349 (100)

235 (100)

279 (80)

189 (80)

Hematology

352

159 (100)

123 (100)

126 (79)

105 (85)

Blood chemistry

576

272 (100)

215 (100)

235 (86)

181 (84)

Urinalysis

64

11 (100)

7 (100)

10 (91)

5 (71)

Absolute organ weight

224

80 (100)

47 (100)

61 (76)

42 (89)

Relative organ weight

224

104 (100)

82 (100)

89 (86)

67 (81)

Total

2800

1221 (100)

932 (76.3)

1033 (100)

801 (77.5)

( ): In % of one-sided test.

Table 4に反復投与毒性および生殖発生毒性併合試験(Crj: SD IGS雌ラット)から得られた43日後の赤血球数 (106/μL) をDunnettの検定を用いて両側および片側検定で解析した結果を示した.両側検定で解析した場合は,有意差が認められないが,片側検定では,5%水準で高用量群に有意差が認められる.

Table 4. Different of power of two- and one-sided tests of Dunnett’s test obtained from

erythrocyte counts by the OECD TG 407

Statistical analysis

Dose level

0 mg/kg

1 mg/kg

6 mg/kg

30 mg/kg

Number of animals

5

5

5

5

Mean ± S.D. (%)

7.02 ± 0.69 (100.0)

7.19 ± 0.36 (102.3)

6.88 ± 0.31 (98.0)

6.27 ± 0.41 (89.3)

Bartlett’s test

p= 0.406

ANOVA

p = 0.035

Calculated t value

-0.563

0.466

2.530

Dunnett’s t value

Two-sided (2α) = 2.592, one-sided (α) = 2.227 at p = 0.05

Dunnett’s test

Two-sided test

NS

NS

NS

One-sided test

NS

NS

Significance

NS: Not significant different.

5. 群数が増加すると検出力が低下する

毒性試験は通常対照群を含めて4群を設定する.しかし,スクリーニング試験および数種の薬剤評価の場合,6–10群の設定を実施する場合がある.このような探査的研究の場合,最初の段階で薬効・毒性を見逃してはならない.多重性を考慮した検定の一つのDunnettの検定を用いて,群数が増加するに従って検出力が低下するパターンをTable 5に示した.解析項目は,72週齢のB6C3F1雄マウスのヘモグロビン濃度である.群数が増加すると組み合わせが増加し,検出力が低下することが多重比較・範囲検定の宿命である.したがって,多くの群を設定した探査的試験は,t検定の使用を推奨したい.この現象は,第2種の過誤と考える.

Table 5. Power by difference of number of group by Dunnett's test using hemoglobin data (g/dL)

Statistical analysis

Dose level

Control

Low dose

Middle dose

High dose

Top dose

Number of animal

10

10

10

10

10

Mean ± S.D.

13.9 ± 0.254

13.9 ± 0.503

13.9 ± 0.267

14.2 ± 0.179

14.2 ± 0.279

Levene’s test

p = 0.1609

Dunnett ’s test

p = 0.8185

p = 0.6412

p = 0.0497*

Levene’s test

p = 0.2307

Dunnett ’s test

p = 0.8621

p = 0.6955

p = 0.0532

p = 0.0616

Student’s t test

p = 0.4341

p = 0.3678

p = 0.0027**

p = 0.0108*

One-sided test for Dunnett’s and Student’s t-tests.

* p < 0.05 and ** p < 0.01 from control group.

Table 6に種々の解析法のp = 0.05の両側検定による各検定法の棄却限界値(各分布表中の値)を示した.動物数は,各群10匹の4群設定である.Student’s t-testの棄却限界値が最も小さい数値 2.10 となる.したがって,最も有意差の検出が高いことが分かる.計算値が棄却限界値より大きければ統計学的有意差となる.

Table 6 . Critical value in tabular value of the analytical methods

Statistical analysis

p

Critical value in each table

Student’s t-test

0.05, 2α

2.10

Dunnett ’s test

2.30

Williams’s test

2.50

Duncan’s test

3.11

Tukey’s test

3.80

6. まとめ

毒性量を推定するには統計解析の結果を参考にして,試験責任者の長年の経験と知見から毒性学的有意差を吟味して無毒性量および最小毒性量を設定する.毒性試験は,高用量およびそれ以上の用量では,動物数の減少や分布の大きな変化(毒性学的)が認められる用量を設定している.現在このデータを解析する場合,多重性を考慮することが常識となっている.しかし,多重性を考慮すると毒性学的有意差を見逃すことがあることが推測されることがわかった.したがって,StudentまたはAspin-Welchのt検定で解析することによって,等分散検定は何を使用する?ANOVAは不要か?多重性を考慮した検定はDunnett, Williams, Duncan, Tukeyか?順位和検定は使用するのか?などの疑問が全くなくなる.

7. 参考資料および引用論文

http://dra4.nihs.go.jp/mhlw_data/jsp/SearchPage.jsp 既存化学物質毒性データベース,Japan Existing Chemical Data Base (JECDB).

小林克己 (2015):毒性試験に用いる統計解析2015,pp93-94, 薬事日報社,東京.

Dunnett, C.W. (1955): A multiple comparison procedure for comparing several treatments with a control. J. Am. Stat. Assoc., 50, 1096–1211.

Dunnett, C.W. (1964): New tables for multiple comparisons with a control. Biometrics, September 482–491.

Kobayashi, K. (1997): A comparison of one- and two-sided tests for judging significant differences in quantitative data obtained in toxicological bioassay of laboratory animals, Journal of Occupational Health, 39, 29–35.

Kobayashi, K., Pillai, K. S., Sakuratani, Y., Abe, T., Kamata, E. and Hayashi, M. (2008): Evaluation and assessment of statistical tools used in short-term toxicity studies with small number of rodent. J. Toxicol. Sci., 33(1), 97–104.

この章の出典:実験動物を用いた毒性試験はt検定系が最良の解析法 (2017),畜産の研究,71 (12), 1007–1012.

2. 定量値の統計解析に正規性の検定が使用されないのはなぜ?

小林克己

元内閣府食品安全委員会技術参与

抄録:毒性試験を含めた生物試験の群間差の解析には,群内の分布が正規性を示すか否かによって次の群間差の検定法が異なる.成書および関連資料では,群間差の検定前に正規性の検定を必要としている.正規性の検定法は,幾つか用意されている.しかし,殆どのこれらの試験は,正規性の解析を実施していない.代わってパラメトリックまたはノンパラメトリック検定の選択に等分散検定を使用している.正規性の検定を使用していない理由は,解析法の選択に一定の基準がないこと,動物数によって検出力が変化する.著者は正規性の検定が必要な場合,Shapiro-WilkのW検定を推奨する.

1. はじめに

私は,生物試験を含めた毒性試験の統計解析法に長年従事してきた.今回は,定量値(体重,摂餌量および摂水量,血液学的検査値,臨床生化学検査値,尿検査値および器官重量・体重比など)の群間差の検定の前に実施する正規性の検定について考察する.一般的に成書および各種テキストには「正規性を確認した後,等分散検定によってパラメトリックまたはノンパラメトリック検定によって群間差が統計学的に有意か否かを解析する」と述べられている.しかし,これら特にヒトの健康に影響する毒性試験を含めた生物試験に「正規性の検定」が応用されていないのが現実である.この理由を検索して考察を加えた.

2. 正規分布 (normal distribution) のデータとは

大きい数値と小さい数値が左右にほぼ均等に分布し,肉眼的に「釣り鐘状」のばらつき(分布)を示す形状をいう.釣り鐘状分布およびガウス分布ともいう.一般的にヒトを含めた実験動物から得られる定量データ(機器を用いた測定値)で正規性を示すと云われる項目は,体重,飼料摂取量,尿量,赤血球数およびヘモグロビン濃度などである.非正規分布を示す項目は,血液・生化学的検査値が多く血小板数 (PLT),特に血清酵素活性のアスパラギン酸アミノトランスフェラーゼ (AST), アラニンアミノトランスフェラーゼ (ALT) およびコリンエステラーゼ活性値 (ChE) などと云われている.

特に変動係数 (%) の大きい測定項目は,非正規性を示す傾向にある.ラットに対するこれらの項目は,ChE, 白血球数,尿浸透圧,子宮重量,乳酸脱水素酵素活性,メトヘモグロビン量,トリグリセライド量,尿量,好中球分画,クレアチンフォスフォキナーゼ活性値およびγ-グルタミルトランスペプチダーゼ活性値などである (Kobayashi et al. 2011).変動係数が20%以上の値は,分布状況を確認したい.

データが正規分布に従うか否かの判断の場合,動物数(標本数)は,100–1,000の場合に適用すると考える.対象項目は,ヒトを含めた動物の背景値 (histological control data) に応用されている.

一般的に正規性が認められるラットの体重分布(ヒストグラム)を図1に正規性が認められないラットの血小板数分布を図2に各々示した.非正規性の血小板数の変動係数は,体重の5.2% に比較して大きく22.2% であった.非正規性を検討する場合のメルクマールは,変動係数 (CV, %) と箱ひげ図の両端に表示される「はなれ値または外れ値 (outside)」 および「飛び離れ値 (far out)」 の有無である.正規性のデータは,ひげから外に逸脱しない.データは,農薬の2年間慢性毒性/発がん性併合試験から得られた数値でSAS JMPで解析した.

Shapiro-WilkのW検定

W

p値 (Prob < W)

Mean ± S.D.

N

0.976035

0.5809

355 ± 18.3

50

図1. F344雄ラットの57週齡の体重 (g) 分布.

Shapiro-WilkのW検定

W

p値 (Prob < W)

Mean ± S.D.

N

0.787694

< 0.0001

611 ± 136

41

図2. F344雄ラットの109週齡の血小板数 (×103/mm3) 分布.

3. 動物を用いた生物・毒性試験に用いる正規性の必要性

一般的に成書および各種テキストには,t分布を用いるStudent, Aspin-Welch, Cochran-Coxのt検定および多重比較・範囲検定(Dunnettの多重比較検定, Tukey, DuncanおよびSchefféの多重範囲検定)を用いる場合,正規性の検定が必要であると述べられている.しかし,等分散検定は,ほとんどの毒性試験に使用されているが,正規性の検定は応用されていない.この理由は,正規性が認められない場合,群間差の検定は何を使用するのか迷うことから,等分散検定を使用して正規性は,無視しても良いという考えである.表1に正規性の検定の必要性を成書および資料から紹介する.

表1. 統計学者による正規性の必要性の説明

記述内容

著者名

① t検定およびF検定などの多くは母集団が正規分布をなすことを仮定している

天野ら (1999)

② 2群間検定の決定樹の中でF検定の前に正規分布を設定している.手法はZ検定である

市川 (1986)

③ パラメトリック法とは,母集団 分布が正規分布であることを仮定した上でそれぞれの母平均の比較をおこなう方法です

大阪大学大学院薬学研究科ら(2017確認)

④ 平均値の差の検定のt検定の項でx1, x2ともに正規分布に従うことが条件である

方波見ら (1977)

⑤ 2標本t検定の項で「処理群 vs 非処理群の比較をおこなうとき,処理群に関するデータが正規分布にしたがい,非処理群に関するデータが正規分布にしたがうと仮定する」と同じく正規分布を前提とした方法の項で「多重比較法としてTukey, Dunnett, WilliamsおよびSchefféの方法について説明する.これらの方法は,母集団分布が正規分布であることを仮定したうえで,それぞれの母集団の比較をおこなうのでパラメトリック法と呼ばれる

永田ら (1999)

⑥ 差の検定(連続量データの比較)の項で,有意差検定を行うときデータが正規分布する場合とそうでない場合で統計解析方法が異なる.前者の場合には,対応のあるt検定,対応のないt検定 (Student’s and Welch’s tests) があり,後者の場合にはWilcoxon符号付順位検定,Wilcoxon順位和検定,Median検定などがある

村田ら (2002)

いずれにしても平方和,分散または標準偏差を使用するパラメトリック検定のt検定および各種多重比較・範囲検定には,等分散検定の前に正規性の検定が必要であると多くの統計学者が述べている.

4. 米国NTP (National Toxicology Program) テクニカルレポート (TR) による正規性の検定

NTP TR の長期2年間発がん性毒性試験 (TR 514/2004, TR 581/2014, TR 582/2015, TR 589/2016, TR 594/2017) から得られる定量値 (continuous variables) では,対照群と用量群間の差の検定法の選択に必要な正規性の検定は,各項目によって経験的判断からパラメトリックまたはノンパラメトリック検定を選択している(表2).現在 (2018) までに長期2年間発がん性毒性試験は,594試験程度でここ20年,表2の手法で正規性の解析法を設定している.すなわち,NTP TRは,正規性を経験的判断によって解析している.著者は,「経験的判断」とは大標本の背景値から判断していると推測する.この長期2年間発がん性毒性試験の中に試験番号 TR 577/2013 は,ANOVAおよびDunnettの多重比較検定を使用している例がある.

2006年12月にChief statistician for the NTPのDr. Grace E. Kisslingにお聞きした.「正規性の検定は通常実施していない.しかし,私たちは,経験から通常,体重と臓器重量は正規性をしているのを知っています.多くのデータから,血液学,臨床化学,尿検査,細胞増殖,および精子細胞データは通常,正規分布が認められないことを確認している.データを分析する前に,私たちは,外れ値を探して,それらが有効なデータであるかどうか確認している」と述べていた.

NTP TRの長期2年間発がん性毒性試験 (TR 514/2013)では,ANOVAおよびDunnettの多重比較検定を使用している.

表2. 米国NTP長期毒性試験に使用される正規性の検定

解析項目

正規分布の解析法

対照群と差の最終解析法

器官重量および体重

経験的判断で正規性を示す

Dunnett (1955) and Williams (1971, 1972)

血液学的,生化学的および尿検査

経験的に歪度を示し正規性を認めない

Nonparametric multiple comparison methods of Shirley (1977) and Dunn (1964)

なおskewness: 歪度(ワイド)・歪み度:ひずみ度は,左右対称か否かを判定する統計量である.正規分布は,歪度が0である.右に裾を引く場合は,正である.左に裾を引く場合は,負になる.

次にNTP TRの短期毒性試験 (Toxicity Report Series, Number 71 = TOX 71/2007, TOX 93/2017) の28日間反復投与毒性試験では,正規性と等分散によって解析法を選択しているが両者の解析法は,述べられていない.現在 (2018) 短期毒性試験は,93試験が掲載されている.

5. 日本の毒性試験に使用されている正規性の検定

毒性試験に使用された正規性の検定法は,前述のNTPテクニカル報告書(500長期試験)が経験的判断からで解析法を採用していない.日本では,NIHsで公表されている既存化学物質の28日間反復投与毒性試験,反復投与毒性試験と生殖発生毒性スクリーニング試験の併合試験,独立行政法人 農林水産消費安全技術センターまたは内閣府食品安全委員会から発表されている農薬および包装機材の毒性試験など併せて約1,000試験に対して正規性の検定を省略している.しかし,等分散検定は,ほとんどBartlettの等分散検定を採用している.正規性より等分散性を重要視している.

この理由は,正規性の検定が後述(8. 正規性の検定法の概略)で示したように幾つか発表されているが,どの検定法を採用するかに自信がないか前例がない,もし4群設定で非正規性の群が1群あった場合は,ノンパラメトリック検定(順位和検定)となるのか判断できない.なぜならば毒性試験は,多重性を考慮しているためである.もし,t検定系を使用すれば,不等分散となりAspin-Welchの検定があることから問題がなくなる.等分散検定は全群間の検定であるが正規性の検定は1群の検定であることに留意したい.

6. 正規性検定を用いた評価例

Aldana et al. (2005) は,「ラットを用いたCIGBから得られた顆粒コロニーの刺激要素の安全性」を吟味するために,体重および摂餌料の解析の前に正規性の検定にKolmogorov-SmirnovおよびShapiro-WilkのW検定を採用している.次いで等分散検定は,Leveneの検定,全群間差は,分散分析 (ANOVA), Kruskall-Wallis, 対照群と用量群間は,t またはWilcoxonの検定を使用している.群構成は,1群10匹(雄雌各5匹)の5群である.正規性を検定した生物を用いた試験は,極めて少く殆どない.

7. 正規性より等分散検定を採用する理由

日本および外国の毒性を含めた薬理,体内挙動試験などから得られた定量値に対して群間差を吟味する前の正規性の検定はどうして実施しないのか?

1 正規性の検定は,Kolmogorov-Smirnov, Lilliefors, Shapiro-WilkのW検定およびカイ分布を用いる適合度検定があるがどれを採用するか明確に説明している成書がない

2 毒性試験に使用する1群の動物数は,通常28日間反復投与毒性試験が5–10, 慢性毒性試験が20匹および発がん性試験が50匹.正規性の各解析法は,動物数によって検出力が異なる

3 1群5–20匹程度の場合は,殆どShapiro-WilkのW検定によって正規性が保たれる

4 正規性の検定は1群の検定であるため,もし高用量群に非正規性が認められた場合,どの多重比較検定を採用するのか?

5 もし4用量設定で対照群と高用量群が非正規性の場合,群間差の検定はどうする?

6 2群間検定の場合は,両者とも非正規性であれば順位和検定が応用できる.この場合でも,非正規性同士は,等分散検定 (F test) によって等分散性が認められる

7 各群の分散の同一性(等分散性)を把握した方が,群ごとの正規性を吟味するより,次の群間差の検定が応用しやすい

8 したがって,等分散検定をクリアーすれば各群の正規分布が認められるであろうと考えているのではないか?

毒性試験を含めた生物試験では,正規性の検定が使用されていない理由は,1群の動物数が5–50匹程度のため正規性が保たれる.正規性が保たれない血液生化学的検査値でも匹数が小さいと正規性が保たれる.計算式によらなくてもヒストグラムによって肉眼的に正規性と判断している.1群のみ正規性が保たれないと群間差の検定は,何を使用するのか判断ができない.

8. 正規性の検定法の概略

1 Kolmogorov-Smirnov(コルモゴロフ・スミルノフ)の検定

エクセル2008にはKolmogorov-Smirnovの検定および歪度と尖度による検定が使用できる.統計ソフトSTATISTICAに格納されている.

2 Lilliefors(リリーフォース)の検定

統計ソフトSTATISTICAに格納されている.

3 Shapiro-Wilk(シャピロウィルク)のW検定

統計ソフトSAS JMPでは,「Nが2000より大きい場合にKolmogorov-Smirnovの検定およびLillieforsの検定を使用する.またNが2000以下の場合はShapiro-WilkのWの検定を使用する」と説明している.この検定の帰無仮説は「変数は正規分布にしたがう」となる.したがって,p ≧ 0.05となれば,帰無仮説を保留し,正規分布であることを仮定することになる.手計算はさほど難しくない.算出した値の範囲は,0 < W<1となり,正規分布の場合は1に近くなる.W値が小さいと非正規性を示す.

4 面積を計算する方法

解析ソフトは群馬大学の青木先生の無料ソフトを使用できる.区間の分けの選び方は,自由度を,なるべく5以上20以下に設定する.自由度は,クラス数をkで表せばk - 3となる.この理由は,通常はk - 1となるが,平均値と標準偏差を標本から推定したので自由度はさらに2減るから,D.F. = (k - 1) - 2 = k - 3となる.したがって,正規性の検定は,解析者によって検出力が異なることが示唆される.したがって,区間の設定によって正規性の結果が異なる.

①–④に加えて肉眼的判断がある.我々実験動物を扱う分野では,正規性を利用する場合Shapiro-WilkのW検定が適当と思う.

9. Shapiro-WilkのW検定は動物数が増加するに従って検出力が低下する

ラット17匹の体重を基準にしてその2, 3および4倍の動物数を設定して各動物数にShapiro-WilkのW検定を応用した.その結果は,表3に示した.

表3. 動物数の違いによるShapiro-WilkのW検定の検出力

標本数

ヒストグラム

平均値

変動係数

(%)

Shapiro-Wilkの

W検定

Kolmogorov-Smirnovの検定*

W値

有意水準

D値

有意水準

17

Number = 68

103

15.5

0.987278

0.9891 (NS)

0.156692

> 0.2 (NS)

34

15.3

0.968746

0.5017 (NS)

0.129695

> 0.2 (NS)

51

15.2

0.959888

0.1486 (NS)

0.120719

> 0.2 (NS)

68

15.2

0.954862

0.0383 (S)

0.116236

0.1162 (NS)

* 統計ソフトは,STATISTICAによる.

NS; 有意差を示さない = 正規性を示す.S; 有意差を示す = 正規性を示さない.

ほぼ同一な分布(ヒストグラム)の場合は標本数が小さいとShapiro-WilkのW値が大きくなる.標本数が大きくなるに従って正規性の検出が低下する.Kolmogorov-Smirnovの検定は,非正規性は,認められなかった.

実際の毒性試験から得られた定量データに対して正規分布の検定を実施した結果,興味ある所見が認められたので報告する.定量値の中で最も正規分布が認められる項目のひとつに体重がある.表4に示すように10試験の各対照群は,正規分布をしているが群内標本数が増加すると正規分布が認められない.データは,農薬の2年間慢性毒性/発がん性併合試験である.

表4. 対照群に用いた雄F344ラットの52週の体重10試験の正規性の変化

計算値

試験番号

1

2

3

4

5

6

7

8

9

10

Mean ± S.D.

355 ± 20

396 ± 26

344 ± 24

351 ± 21

361 ± 22

384 ± 20

355 ± 18

358 ± 18

371 ± 29

358 ± 16

N

59

70

50

60

49

69

50

50

50

49

変動係数, %

5.6

6.6

7.0

6.0

6.1

5.2

5.1

5.0

7.8

4.5

W値

0.9587

0.9721

0.9800

0.7928

0.9743

0.9780

0.9760

0.9767

0.9778

0.9787

p (Prob < W)

0.0912

0.3140

0.7299

0.3964

0.5262

0.5499

0.5809

0.6089

0.6496

0.6895

累積

p (Prob < W)

0.1069

0.1218

0.0144 (S)

0.0070 (S)

0.1449

0.0460 (S)

0.0141 (S)

0.0365 (S)

0.0153 (S)

S; 有意差を示す = 正規性を示さない.

カイ分布を利用した場合は,グループ数を適当に調節できるが,Shapiro-WilkのW検定ではグループの設定ができない.したがって,大標本の場合,Shapiro-WilkのW検定は,正規性の確保が難しいことが推測される.

Shapiro-WilkのW検定に比較してKolmogorov-Smirnovの検定は,検出力が低い.したがって,標本数が大きい場合は,Kolmogorov-Smirnovの検定の使用を推奨する.

この項を総括するとカイ分布を用いる適合度検定とは,階級幅の設定の違いによって正規性の判断が異なる.すなわち,階級に所属する個体数が大きい場合,正規性を保つことが困難となり,逆にクラス数を多く設定すると正規性が保たれる傾向にある.実際の使用場面では,Shapiro-WilkのW検定またはカイ分布を用いる適合度検定のどちらを選択するかは,試験責任者にお任せする.

次にF344雄ラットの慢性毒性発がん性併合試験の試験開始後104週の血小板数のデータを解析(表5)する.両群ともShapiro-WilkのW検定の結果,非正規性を示す.この場合はノンパラメトリック検定となり,Wilcoxonの順位和検定となる.この結果,両群間の中央値は,p < 0.0001で有意差を示した.この両群の分散比は,1.255で同程度の分散(等分散)が認められる.この場合,2群間検定のStudentのt検定が応用できる.この結果両群の血小板数の差は,p < 0.0002で有意差が認められる.したがって,毒性試験の場合なるべく平均値の検定を望むことから等分散検定によってバラメトリック検定を実施すると考える.つまり正規性より等分散性が重要視されている.

表5. 両群とも非正規性の場合のノンパラメトリックおよびパラメトリック検定の結果

解 析

対 照 群

高用量群

血小板数のヒストグラム

(×103/mm3)

平均値 ± 標準偏差 (N)

611 ± 136 (41)

735 ± 152 (40)

Shapiro-Wilk’s W test

W = 0.787694

W = 0.854667

p value

< 0.0001, 非正規性を示す

< 0.0001, 非正規性を示す

Wilcoxon’s rank test

p < 0.0001

分散比(F値)

1.255 (p = 0.4778)

Student’s t test

p < 0.0002 (two-sided)

Shapiro-WilkのW検定を使用した場合の検出力の1例を述べる.1群10匹のF344ラットの32週齢の体重(増体重を含む),摂餌量,血液・生化学的検査値 (Ht, Hg, RBC, PLT, Neu, BUN, TP, ALT, A/G, α-2glob (%), β-glob (%), IP, and others) および器官重量などの殆どの定量値は,正規性が認められる.一部の白血球分画 (%) に非正規性が認められる.試験責任者は,各測定値の分布状況を把握していなければならない.

10. まとめ

以上を総括すると毒性試験を含めた生物試験には,正規性の検定が実施されていないのが現状である.この理由は主にどの解析が有用か判断できないことにある.加えて群間の等分散を確保することによって問題なく群間差が吟味できる.もし,正規性が必要であればShapiro-WilkのW検定を推奨する.したがって,実験動物を用いた試験では,通常正規性の検定は,必要ないと考える.もし,群間差以外の解析の場合,私は,もし正規性が必要であれば動物数,ヒストグラムおよび幾つかの正規性の検定で解析し試験責任者が判断することを指摘する.

11. 引用論文および資料

Aldana, L.,Bacardí, D., Merino, N., Cosme, K., Porras, D., Carreras1, I., Alí, A., Suárez, J., Ariel Vázquez, A., and Cruz, Y. (2005): Safety evaluation of granulocyte colony-stimulation factor obtained at CIGB. Biotecnología Aplicada, 22, 50-53.

Dunn, O.J. (1964). Multiple comparisons using rank sums. Technometrics, 6, 241–252.

Dunnett, C.W. (1955): A multiple comparison procedure for comparing several treatments with a control. J. Am. Stat. Assoc., 50, 1096–1211.

Kobayashi, K., Sakuratani, Y., Abe, T., Yamazaki, K., Nishikawa, S., Yamada, J., Hirose, A., Kamata, E. and Hayashi, M. (2011): Influence of coefficient of variation in determining significant difference of quantitative values obtained from 28-day repeated-dose toxicity studies in rats. J. Toxicol. Sci., 36, (1), 63–71.

Shirley, E. (1977): A non-parametric equivalent of Williams’ test for contrasting increasing dose levels of a treatment. Biometrics, 33, 386–389.

Williams, D.A. (1971): A test for differences between treatment means when several dose levels are compared with a zero dose control. Biometrics, 27, 103–117.

Williams, D.A. (1972): The comparison of several dose levels with zero dose control. Biometrics, 28, 519–531.

http://aoki2.si.gunma-u.ac.jp/JavaScript/

http://aoki2.si.gunma-u.ac.jp/JavaScript/norm-fit2.html

http://aoki2.si.gunma-u.ac.jp/JavaScript/norm-fit1.html

http://www.gen-info.osaka-u.ac.jp/testdocs/tomocom/tazyu.html#para

https://ntp.niehs.nih.gov/ntp/htdocs/lt_rpts/tr514.pdf

https://ntp.niehs.nih.gov/ntp/htdocs/st_rpts/tox071.pdf

天野 卓,野村こう,横濱道成/田中栄一監修 (1999):計量生物学.生物統計と基礎と演習.pp 20, 三共出版社,東京.

市川清志 (1986):統計学集中講座.pp 40, 日本卒後教育センター,東京.

方波見重兵衛,金森雅夫,本田 靖 (1977):系統看護学講座 基礎4 統計学.pp 108, 医学書院,東京.

永田 靖,吉田道弘 (1997):統計的多重比較法の基礎.pp 20および33. サイエンチィスト社,東京.

村田勝敬,矢野栄二(帝京大学EBMセンター編集)(2002):医学統計.pp 34, 南江堂,東京.

この章の出典:定量値の統計解析に正規性の検定が使用されないのはなぜ? (2018),畜産の研究,72 (3), 201–209.

3. 定量値の統計解析に等分散検定は必要性か?

小林克己

元内閣府食品安全委員会技術参与

抄録:動物を用いた効果・薬理・毒性試験から得られる定量値の群間差の検定の前に,等分散検定が一般的に使用されている.もし不等分散の場合,2群間検定の場合は,Aspin-Welchのt検定で解析すれば問題がない.しかし,3群以上の設定の場合は,等分散検定の必要はなく,対照群との比較であればDunnettの多重比較検定で全群間の比較であればTukeyの多重範囲検定で解析して問題がないと考える.この理由は,これらの解析では全群間の分散を考慮しているため,分布が異なる場合,分母の誤差項の分散が大きくなるためF値が小さくなり有意差が検出されにくくなる.また少数例の試験ではBartlettの検定は必要ないと考える.

1. はじめに

ラット,マウスおよびイヌを用いた毒性試験,ヒトおよび実験動物を用いた生物試験から得られた定量値の群間差を解析する場合,2群設定の場合は,F検定また3群以上の設定の場合は,一般的に Bartlett の等分散検定(以下Bartlettの検定)が用いられている.この等分散検定の目的は,有意差(不等分散)が認められた場合2群間検定では若干検出力の低いt検定へ,3群以上の場合定量値の差ではないノンパラメトリック検定(順位和・中央値の検定,以下ノンパラ)検定へ導くことになる.等分散の位置づけ,必要性,等分散検定の種類,等分散検定後の群間差検定および実際の使用状態について多くの論文から調査し,等分散検定の必要性を考察した.

2. 等分散の必要性

群間差を吟味する場合,本来は,対照群対各用量群および全群の分布(ばらつき)が同様の場合に実施する.いわゆる分散のずれを計算してその大きさによって群間の分布の違いを解析している.したがって,動物用医薬品の抗生物質のブロイラーに対する成長促進効果試験結果の体重,飼料摂取量,血液生化学的検査値および臓器重量などは,対照群に対して各用量群の分布(分散)がほぼ同一となり,等分散検定の必要はないと考える.一般的に等分散の必要性は,「群間に大きな分散が認められる場合である」と云われる.

既存化学物質の毒性試験は,殆ど等分散検定を設定(NIHsのHP)している.この場合の等分散検定は,Bartlettの検定である.この理由は,中・高用量群の動物数および分散が対照群と大きく異なることにある.

イギリスのエジンバラ大学のDr. Finney (1995) から日本トキシコロジー学会編集委員へLetter to the editorが提出された.内容は,上記のKobayashi et al. (1995) の論文についてである.彼は,「毒性試験で分散の違いは驚くことではない」といっている.したがって,等分散に関係なくDunnettの多重比較検定(以後Dunnettの検定)を含めた分散分析によって解析を推奨している.もちろんデータを順位などに変換しているノンパラ型Dunnettの検定を否定している.

3. 不等分散とは?

元来統計処理は,平均値の差を統計学的に有意があるか否か解析する.このためには群間の分布・分散がほぼ同程度の場合に実施されるのが妥当である.つまり体重であれば両群とも同程度の分布を示すが平均体重の差はあるか?表1に例えて圧倒的に火力のある米国がベトナム戦争から撤退したことを示す.したがって,本来このような例は,統計解析が不適当となる.

表1. 戦力が大きくともその分布によって勝敗が異なる事例

国名(群)

戦力(平均値)

分布(分散)

結果

米国

大(火砲・重火器)

狭い(集中砲火)

撤退

ベトナム

小(小銃・刀・罠)

広い(ゲリラ戦)

勝利

4. 一般的な群間差検定と等分散検定の関わり

表2に等分散検定による群間差検定への導きについて述べる.2群設定の場合は,F検定(分散比の検定)のみである.分散の小さい群を分母に大きい群を分子に設定してその比を計算する.必ず1以上の数値が得られる.不等分散の場合は,Aspin-Welchのt検定を使用する.その他にもGad and Weil (1986) は,Studentのt検定を使用し有意差の判定は,N–1の自由度で判定する.各群10匹の場合,等分散では自由度2N–2 = 18で群間差を判定するが,不等分散では,Studentのt検定で自由度N–1 = 9で群間差を判定する.不等分散のため自由度を小さくして棄却限界値を大きくし,有意差の検出を抑えている.

表2. 群設定と等分散検定と群間差の検定

群の設定

等分散検定の種類

群間差の検定

等分散 (p > 0.05)

不等分散 (p < 0.05)

2群のみ

F検定

Studentのt検定

Aspin-Welchのt検定

3群以上

Bartlettの検定

分散分析 (ANOVA) および Dunnettの検定

Steel, Wilcoxonの検定およびMann-WhitneyのU検定

5. 3群以上の設定の場合の等分散検定

この検定には,Bartlett, Levene, Brown-ForesytheおよびO'Brienが用意されている.この中で最も多く使用されている解析法は,Bartlettの検定である.次いでLeveneの検定である.Bartlettの原著論文 (Bartlett, 1937) は,かなり古い論文である.

5-1. Bartlettの検定

この検定法は,多群間(三群以上)の分布の違いを検定(吉村ら,1987)する目的で実施される.1群中の標本数は,10以上あれば十分である.t検定の前に実施するF検定と同一の考えをもった検定である.一般的にこの検定で不等分散 (p < 0.05) を示せば分布を利用しない順位和検定となる.イヌおよび化審法の毒性試験などのように1群内3–8と例数が小さい場合は応用しない場合が多い.計算は,常用対数を用いるため繁雑で手計算が難しい.毒性試験の分野では殆どこの検定を使用している.

5-2. Leveneの検定

Leveneの等分散検定は,海外の文献で時折使用されており,Bartlettの検定に比較して検出力が穏やか(低い)である.Leveneの検定 (Levene, 1960) は,スタンフォード大学の出版社からの本に掲載されていることから参考書にほとんど引用されていない.

各群の平均値から個体値を引いた値の絶対値を変換値(表3)とする.

表3. 生化学検査値

群:

対 照

低用量

高用量

測定値

平均値

変換値

測定値

平均値

変換値

測定値

平均値

変換値

個体値

3.00

5.62

2.62

7.10

9.24

2.14

9.70

8.94

0.76

7.80

2.18

6.20

3.04

10.0

1.06

10.3

4.68

15.5

6.26

11.9

2.96

2.80

2.82

9.40

0.16

4.20

4.74

4.20

1.42

8.00

1.24

8.90

0.04

変換値を使って1元配置分散分析を実施する(表4).Leveneの等分散検定を用いた毒性試験は,Shibui et al. (2014), Risom et al. (2003), Aldana et al. (2005) およびLee et al. (2004) によって報告されている.

表4. 臨床検査値の1元配置の分散分析表

要因

自由度

平方和

分散

F 値

P 値

全体

14

44.0150

群間

2

1.9226

0.9613

0.2740

0.7649

誤差

12

42.0925

3.5077

5-3. Brown-Foresytheの検定

Leveneの等分散検定は,平均値を用いるがこの検定は,中央値を用いこの中央値との差を変換値とする.

5-4. O'Brienの検定

計算法はAbdi (2007) によって述べられている.2群間の等分散性を解析するために分散分析表を作成して解析している.

6. 不等分散とはどの程度の分布差?

6-1. 2群間検定の場合に使用するF検定

28日間反復投与毒性試験の体重測定結果を抜粋して図1に示した.両群間の分散比は4.1を示し,不等分散であった.もし等分散であればStudentのt検定となり自由度は2N – 2 = 18で解析する.この場合は,不等分散であることから計算式によって自由度13を用いてAspin-Welchのt検定となる.不等分散であることから自由度を小さくし,有意差の検出を抑えている.

Aspin-Welchのt検定は,Studentのt検定に対して検出力が若干低いが,大きな検出力の差は,ないと云われている.したがって,等分散検定(F検定)を実施しないで直接Aspin-Welchのt 検定で実施している論文は最近多い.分散比が3倍以上の場合,等分散性に留意すること.

ヒストグラム

薄い区画:対 照 群

濃厚区画:高用量群

平均値 ± 標準偏差(動物数)

193.6 ± 11.3 (10)

179.7 ± 5.53 (10)

分散

128

30.6

分散比(p値),結果

4.41, p = 0.044, 不等分散を示す

Studentのt 検定

p = 0.0020** (one-sided), 自由度 = 18

Aspin-Welchのt 検定

p = 0.0028** (one-sided), 自由度 = 13

Mann-WhitneyのU検定

U = 16, p < 0.05 (one-sided)

** 対照群に対して p < 0.01.

図1. CD (SD) IGS雌ラットを用いた毒性試験開始後3週の体重 (g) の

不等分散と差の解析結果

6-2. 3群間検定の場合に使用する等分散検定

4法の等分散検定を用いて28日間反復投与毒性試験のTriglyceride値について解析した結果を図2に示した.最も検出力の高い手法は,Bartlettで次いでBrown-Foresyth, LeveneおよびO'Brienの検定の順であった.通常Bartlettの検定で有意差が検出された場合は,ノンパラのSteelの検定となる.この場合,Steelの検定では有意差が認められない.しかし,不等分散に関係なく分散分析またはDunnettの検定の結果,対照群と高用量群間に統計学的有意差が検出される.

したがって,私は,等分散検定を必要ないものと考える.等分散検定を実施しないことで定量値自体の平均値の検定となり,試験責任者は薬物の毒性の判断が容易になる.ノンパラは群の平均順位の検定となるためである.Dunnett (1955, 1964) は,等分散検定に触れていない.

検定

対 照 群

低用量群

中用量群

高用量群

ヒストグラム

平均値 ± 標準偏差

47.7 ± 26.4

33.4 ± 18.6

22.6 ± 16.5

11.3 ± 2.69

動物数

5

5

5

5

等分散検定

O'Brienの検定,p = 0.2692 (NS)

Brown-Foresytheの検定, p = 0.0461

Leveneの検定,p = 0.1076 (NS)

Bartlettの検定,p = 0.0085

分散分析

p = 0.0361

Dunnettの検定

NS

NS

p < 0.05

Steelの検定

NS

NS

NS

NS: Not significance.

図2. CD (SD) IGS雄ラットを用いた投与終了時4週のTriglyceride値 (mg/dL) の

不等分散と差の解析結果

上述4手法を用いてマウスの飲水量の等分散性を表5に示した.

表5. B6C3F1雌マウスの13週齢の飲水量 (g/week)

動物数

平均値 ± 標準偏差

実質有意水準, p

O'Brien

Brown-Foresythe

Levene

Bartlett

1

10

43.8 ± 9.0

0.0459

0.0340

0.0014

< 0.0001

2

10

35.4 ± 3.4

3

10

31.9 ± 1.5

4

10

30.7 ± 2.1

いずれも5%水準で有意差を示すが,有意差の検出力は,Bartlettがもっとも高く次いでLevene, Brown-ForesytheおよびO'Brienの等分散検定の順である.またほぼ同一の分布がみられる場合は,4手法とも同程度の検出力を示す.一群でも分布が異なるとBartlettの検定は感度が極めて高いことに留意したい.

Jahnke et al. (2006) はBerberineのラットおよびマウスの毒性試験の等分散検定にBartlettの検定を用い有意水準を 0.001に設定している.この理由は,不等分散の検出を小さくし,多くの定量値を順位化せずに定量値自体の群間平均値差を解析することを願っているためである.しかし,私はこの意見に賛成しない.Bartlettの検定より検出力の低いLeveneの検定 (p = 0.05) を使用して欲しい.または等分散検定を実施せず直接Dunnettの検定を用いる.

7. 毒性試験はどの程度,Bartlettの検定で有意差が検出されるのか?

化審法28日間反復投与毒性試験を例に挙げ表6示した.既存化学物質からBartlettの検定 (p < 0.05) の結果が表示されている15物質を調査しその中から7物質を調査した.5–20%程度の定量値に有意差が認められた.したがって,これらのデータは順位を解析するリンパラメトリック検定のSteelの解析となる.各群の動物数は5または4匹である.

表6. 化審法28日間反復投与毒性試験でBartlettの検定による有意差 (p < 0.05) 検出割合

測定項目(単位)

CAS No.

26471-62-5

CAS No.

7803-57-8

CAS No.

3846-71-7

CAS No.

112-26-5

CAS No.

1328-53-6

CAS No.

1066-40-6

CAS No.

657-84-1

動物数

4

5

5

4

4

5

4

体重/増体重 (g)

0/10

3/12

0/12

0/20

0/12

0/12

0/12

飼料摂取量 (g)

1/10

2/10

0/10

1/10

0/10

0/10

1/10

飼料効率 (%)

0/10

6/10

1/10

2/10

2/10

1/10

3/10

血液学検査1)

3/28

6/32

3/28

1/30

1/28

0/14

0/28

血液学検査2)

4/16

2/4

1/2

-

-

-

-

血液凝固検査3)

3/6

0/6

1/6

0/6

0/6

0/6

3/6

血液生化学検査4)

4/42

6/36

3/36

2/30

3/36

4/36

1/28

血清電気泳動検査(6項目)

0/12

-

-

-

-

-

-

尿検査5)

1/4

0/4

0/4

1/4

0/4

0/4

1/4

器官重量 (g, mg)

0/21

2/19

3/23

2/20

3/19

1/16

0/17

器官重量/体重比 (%)

3/21

4/19

2/23

2/20

2/19

1/16

0/17

17/180 (9.44%)

31/148 (20.9%)

14/154 (9.09%)

11/150 (7.33%)

11/144 (7.63%)

7/124 (5.64%)

9/132 (6.81%)

1): HCT, HGB, RBC, MCV, MCH, MCHC, PLT, WBC, Differential leucocytes counts (%) (Neut, Lymph, Mono, Eosn, Baso, and Luc).

2): Neut, Lymph, Mono, Eosn, Baso, and Luc (×103/mm3), reticulocyte (0/00/%), Methemoglobin (%), and echinocyte (%) and etc.

3): PT (sec.), APTT (sec.), and Fibrinogen (mg/dL)

4): Glucose, T. cholesterol, Triglyceride, BUN, Creatinine, T. bilirubin, T. protein, Albumin, Sodium, Potassium, Chloride, Calcium, I. phosphorus, AST, ALT, ALP, γ-GPT, P. cholinesterase, Glucose, T. cholesterol, and Triglyceride.

5): Volume (ml) and Specific gravity.

次に動物数とBartlettの検定で有意差が検出される割合を表7に示した.動物数が4または5匹のイヌの試験(3試験)が8%,20匹のラット・マウス(14亜急性毒性試験)が16%,50匹のラット・マウス(10がん原性試験)が35%程度である (Kobayashi, 2001).動物数が4および5匹と少ない試験では有意差が検出されにくい.したがって,この場合,私は,Bartlettの検定が不要と考える.

表7. 動物数の違いによるBartlettの検定の有意差検出率

動物数/群

動物種

試験期間(週)

有意差検出率 (%)*

4または5

イヌ

13および52

8.0

20

ラットおよびマウス

13

16

50

ラットおよびマウス

104

35

* 体重,飼料摂取量,飼料効率,血液学的検査値,血液生化学的検査値,

尿検査値,器官重量および器官重量・体重比に対する割合を示す.

8. まとめ

実験動物を用いた生物試験・毒性試験の定量値の群間差の検定の前に等分散検定が常用されている.この差は,定量値の群間差である.2群間および3群以上の試験設定で不等分散の場合,順位差を解析するノンパラ検定となり,検出力の低い解析となる.なるべく定量値の差の検定を望む.

2群間検定の場合,F検定で不等分散が認められた場合は,Aspin-Welchのt検定が用意されている.Mann-WhitneyのU検定またはWilcoxonの順位和検定が使用しなくて済む.最近の論文は,F検定を実施しないで直接Aspin-Welchのt検定が増加している.私は2群間検定において,等分散検定の必要がないと考える.

問題は,3群以上の設定の場合である.BartlettおよびLeveneの等分散検定によって不等分散が認められた場合,定量値の差の検定ではなく,中央値の差の検定となるノンパラ検定となる.3群以上の場合は,ANOVA, Dunnett, Tukey, DuncanおよびSchefféの多重比較・範囲検定などがある.もし不等分散の場合は,一般的に順位和検定のSteelの検定となる.私は,不等分散の場合でも,対照群との比較の場合は,Dunnettの検定を用いても問題がないと思う.この理由は,各群の分散および全群間の分散およびこの二者の差による誤差項の分散(表4)を用いることによって,もし高用量群または1群の分散に偏り(他の群に比較して大/小)が認められても,この変動が誤差項の分散に反映されている.分散分析表を注視して欲しい.

9. 引用論文および資料

Abdi, H. (2007): Test for homogeneity of variance. In: Neil Salkind (ed.) Encyclopedia of measurement and statistics. https://www.utdallas.edu/~herve/Abdi-Obrien 2007-pretty.pdf

Aldana, L., Bacardi, D., Merino, N., Cosme, K., Porras, D., Carreras, I., Ali, A., Suarez, J., Vazquez, A., and Cruz, Y. (2005): Safety evaluation of granulocyte colony-stimulating factor obtained at CIGB. Biotecnología Aplicada, 22, 50–53.

Bartlett, M. S. (1937): Properties of sufficiency and statistical tests. Proceedings of the Royal Statistical Society, Series A , 160, 268–282.

Dunnett, C.W. (1955): A multiple comparison procedure for comparing several treatments with a control. J. Am. Stat. Assoc., 50, 1096–1211.

Dunnett, C.W. (1964): New tables for multiple comparisons with a control. Biometrics, September 482–491.

Finney, D. J. (1995): Thoughts suggested by a recent paper: Questions on non-parametric analysis of quantitative data (letter to the editor). J. Toxicol. Sci., 20, 165–170.

Gad, S. C. and Weil, C.S. (1982): Statistics for toxicologists, Statistics and experimental design for toxicologists (ed. by Hyes, W.). pp. 276, Raven press, New York, U.S.A.

Jahnke,G. D., Price, C. J., Marr, M. C., Myers, C. B., and George, J. D. (2006): Developmental toxicity evaluation of Berberine in rats and mice. Birth Defects Research (Part B) 77, 95–206.

Kobayashi, K., Watanabe, K., and Inoue, H. (1995): Questioning the usefulness of the non-parametric analysis of quantitative data by transformation into ranked data in toxicity studies. J. Toxicol. Sci., 20, 47–53.

Kobayashi, K. (2001): Trends of the decision tree for selecting hypothesis-testing procedures for the quantitative data obtained in the toxicological bioassay of the rodents in Japan, The Journal of Environmental Biology, 21 (1), 1–9.

Lee, J-S, Park, J-I, Kim, S-H, Park, S-H., Kang, S-k, Park, C-B., Sohn, T-U, Jang, J., Kang, J-K, and Kim, Y-B. (2004): Oral single- and repeated-dose toxicity studies on GERANTI BIO-GE YEAST®, organic germanium fortified yeasts, in rats. J. Toxicol. Sci., 29 (5), 541–553.

Levene, H. (1960): Robust tests for equality of variances. In Olkin, I., Ghurye, G., Hoeffding, W., Madow, W.G., and Mann, H.B. (eds.), Contributions to Probability and Statistics: Stanford University Press, Stanford, California, pp. 278–292.

Risom, L., Dybdahl, M., Bornholdt, J., Vogel, U., Wallin, H., Moller, P., and Loft, S. (2003): Oxidative DNA damage and defence gene expression in the mouse lung after short-term exposure to diesel exhaust particles by inhalation. Carcinogenesis, 24 (11), 1852–1852.

Shibui, Y., Miwa, T., Kodama, T., and Gonsho, A. (2014): 28-day dietary study of L-phenylalanine in rats. Fund. Toxicol. Sci., 1 (2), 29–38.

http://dra4.nihs.go.jp/mhlw_data/jsp/SearchPage.jsp

既存化学物質毒性データベース,Japan Existing Chemical Data Base (JECDB).

吉村 功(編)(1987):毒性・薬効データの統計解析.サイエンティスト社,東京.

この章の出典:定量値の統計解析に等分散検定は必要性か? (2018),畜産の研究,72 (5), 325–331.

4. 5%水準で統計学的有意差が認められるとは?

小林克己

元内閣府食品安全委員会技術参与

抄録:生物統計の有意差検出のための有意水準値は,半世紀前から5% = 0.05を国際的に設定し使用している.推計学の問題ではなく,人生観・社会観・自然科学の問題である.たとえ同じ1%水準といっても,それが赤血球数の差が認められるかどうかの場合の危険率と飛行機が墜落する危険率とでは,おのずから異なることが理解できよう.つまり,危険率を何%にするかは,仮説が正しいにも関わらず仮説を捨ててしまうという誤りを犯した時に,こうむる損害の重大さによって決めるべきである.20回に1回の間違いは許しましょうということから5%水準が認知された.極めて少数例ではあるが5%水準でない確率 (< 0.1, 1, 10, 20%) で判断している試験が発表されているが,私は,5%を維持して検出力の優しい解析法または使用しない.加えて生物に対する影響・効果と統計学的有意差が一致することを願う.

1. はじめに

ヒトを含めた動物・生物を用いた試験の定量値および定性値の群間差の判定に種々の解析法を使用する.この解析による差の判定に有意水準値を設定する.一般的に,有意水準または棄却限界値(各検定の分布表の値)は,ここ半世紀 5% (0.05) を使用している.この有意水準値(ピー値,p value)について毒性試験を例にして解説し,読者が適切な値 p = 0.05 を使用することを願う.

2. 5%水準で統計学的に群間差があるとは?

生物統計の分野では,試験を開始する前に群間差がないという「帰無仮説」を設定し,この仮説を捨てたい確率 (p = probability) を p 値で表す.計算値が棄却限界値(5%水準の表)より大きければ群間の差が統計学的に認められると判断する.我々調査および試験を目的とする分野は帰無仮説を採用する.すなわち「帰無仮説」を捨てられる確率をp値で表す.図1に5%水準の設定でも二つの意味がある.いわゆる5%水準でも片側か両側検定か?によって有意差検出力が異なる.

対照群に対して高値(または低値)の一方に5%,結果に予想が付く場合

対照群に対して低値に2.5 + 高値に2.5 = 5%,試験結果がどちらかに予測できない場合

図1. 対照群に対して低値(または高値)を期待する場合と低値か高値か

不明である場合の5%水準の考え方.

3. なぜ生物試験では5%の危険率を採用するのか?

統計が育てられた農学の領域では,大学を出て20年くらいは現役で実務に就く.種子を蒔き収穫状況(収量や味)を調べるという圃場試験は,1年単位である.「現役の研究生活のうち,1回位の過誤や間違いは,許しましょう」.すなわち,20回に1回のミスということで5%の線が認知された.

八百長賭博の心理的な研究から,そうはざらにないという基準がおおよそ5%になる.碁でもテニスでもよいが,ほぼ互角と思える相手と何回か勝負し,続けて負けたとする.この時何回続けて負けたら相手の方が強いと認めるだろうか.人の性格にもよるが,3回で認める人は少ないだろう.3回ぐらいなら,互角の相手に続けて負けることが珍しくない.それが4回続けて負けたとなると大抵の人は弱気になるに違いない.さらに5回となるとどうであろうか?5回続けて負けたら,互角という帰無仮説を棄却して,相手が強いことを認めるのが常識な判断であろう(吉村ら,1987).

「十中八九は確実だが,万に一つの場合もあるので」という表現を使う.この場合,80–90%が「確実なこと」で1万分の1,すなわち,0.01%が「まれな現象」となる.

ヒトの感覚は,5%と95%の境によって納得する.例えば外国人の視覚的増加の有意差は,市町村の人口動態から5%を超えると「最近多い」と感じる.日本の男性看護師は,4%(2014年3月現在,静岡第一TV)で少ない.1クラス25人の中には必ず「変わった人」が1人は居る.一方経済的に,乗用コンバインドによる稲刈り時の稲穂のロスは,5%以内と云われている.また国産H-IIAロケット37号機による軌道確保成功率は,31回連続で,成功率は97.3% (2017-12-23)となる.1回失敗していることから成功率は,36/37 = 0.9729となる.95%以上の成功率で商業衛星受託性が可能と云われている.自動車保険のアクサダイレクトのTV CMで顧客保険料満足度は,96.3%と述べている (2015-4-30).

科学的には,ヒトに対する電磁波と乱数発生の「異常の定理」は,1/20を基準に判断している/サイエンスZERO/NHK (2014-5-4).日本人間ドック学会は,ヒトの健康度をあらわす臨床検査値の「健康の基準」を健康人の95%値を使用している.

一方毒性学的には,毒性試験の20回に1回は,差がないかもしれない.げっ歯類の反復投与毒性試験の動物数は,20匹以上を設定している試験が多い.この場合異常を検出できる確率は1/20 = 5%.げっ歯類を用いたがん原性試験の動物数は,50匹を設定する.この場合がんを検出できる確率は1/50 = 2%,一般化学物質の化審法の28日間反復投与毒性試験は,5匹を設定する.この場合,異常を検出できる確率は1/5 = 20%.

有意水準値を何%に設定するのが望ましいのかは,推計学の問題ではなく,人生観・社会観・自然科学の問題である.たとえ同じ1%水準といっても,それが赤血球数の差が認められるかどうかの場合の危険率と飛行機が墜落する危険率とでは,おのずから異なることが理解できよう.つまり,危険率を何%にするかは,仮説が正しいにも関わらず仮説を捨ててしまうという誤りを犯した時に,こうむる損害の重大さによって決めるべきである.生物統計の解析では,有意水準値の境界をここ半世紀(1955以来)のあいだ国際的に0.05 = 1/20 = 5%に設定している.2013年の米国のスカイダイビングの激突事故は,24人/320万回でこれは,0.00075%となる.

4. 5%水準の棄却限界値は,以下 (p ≤ 0.05) または未満 (p < 0.05) どちらで判定するのか?

この決まりはない,試験結果を判断する責任者が判断すればよい.各検定法の分布表の値(棄却限界値)も算出者によってその桁数は,小数点以下3から7桁と異なる.これは概して数学者の書いた文献は,その桁が大きく,生物学者は,それが小さい.以下または未満かどちらが多く使用されているかいくつかの動物試験に対して調査したところ,内外を問わず両者に差はないようである.私は,いまだにこの棄却限界値と同一な計算値を得たことはない.一般的には,5%以下で判定したという場面が多い.したがって,p ≤ 0.05と表示をした方がよいと思う.20回に1回の過ちは許そうという万国の取り決めからもそう願いたい.

有意差の表示は,日本では5, 1および0.1%の3点が多い.しかし,外国では p < 0.05の1点が比較的多い.特に全対比較の場合は,5% のみの1点表示が多い.

5. 5%以外の有意水準を設定した試験

Jahnke et al. (2006) はBerberineのラットおよびマウスの毒性試験の等分散検定にBartlettの等分散検定を用い有意水準を 0.001に設定している.Bartlettの等分散検定を1%水準で解析している毒性試験は,日本毒性学会誌でいくつか掲載 (Hayashi et al., 1994, Katsutani et al., 1999, Kudo et al., 2000, Mochizuki et al., 2008, 2009a, 2009b, Shirai et al., 2009, Tsubata et al., 2009, Shibayama et al., 2009 and Ishii et al., 2009) されている.この理由は,不等分散の検出を小さくし,多くの定量値を順位化せずに定量値自体の群間平均値差を解析することを願っているためである.

最近多群間検定の分散分析を10%水準に設定した論文 (Obata et al., 1999 and Kimura et al., 2007)および20%水準に設定した論文 (Matsumoto et al., 1999) がある.何故なのでしょうか?私は,その理由を推測する.もし5%水準を設定した場合,時折p = 0.05–0.65で有意差が無くても,Dunnettの検定 (Dunnett, 1955, 1965) で解析すれば有意差が認められる.したがって,10%水準を設定して多くの定量値を有意差として次のDunnettの検定に送っている.

Miidaら (2008)は,Studentのt検定の前のF検定の有意水準を25%に設定している.t検定の有意水準を1%に設定 (Ambali, et. al., 2007 and Kim et al., 2010)している.またHashidaら (2011) は,多重性を踏まえたSchefféの多重範囲検定の有意水準を1%に設定している.この理由は,Schefféの多重範囲検定の検出力の低いことを考慮して有意水準を設定していると思う.

Kobayashi (2011) は,上述の5%以外の有意水準を設定した論文について紹介している.これらの論文は,日本毒性学会のHPから無料ダウンロードできる.

6. 5%水準で有意差とはどの程度の差?

丁半博打を50回実施し,現れる勝ち負けの頻度がどの程度で有意差が認められるか検討した結果を表1に示した.カイ二乗検定の適合度の検定・理論値との一致性の検定で解析する.胴元が32回勝った場合,統計学的に 5%水準で統計学的に有意差が認められ八百長と結論できる.

表1. 50回の勝負で勝ちと負けが1:1とした場合の有意差検出パターン

50回中

p値

50回中

p値

50回中

p値

50回中

p値

勝ち26

0.77

勝ち20

0.15

勝ち19

0.089

勝ち18

0.047*

負け24

負け30

負け31

負け32

*P < 0.05.

表2に2×2のクロス検定による5%水準で有意差が検出されない例を示した.統計学的有意差が認められる発生率は,0/10 対 4/10 および発がん性試験の 0/50 対 5/50である.このクロス検定のほかにFisherの直接確率検定が用意されているが,検出力は,カイ二乗検定に比較して若干高い.4つの数値の1つにゼロ (0) がある場合は,Fisherの直接確率検定を採用すること.

表2. 2×2のクロス検定(カイ二乗検定)

試験群

死亡数・ポジ

生存数・ネガ

動物数

対照・非投薬

0

10

10

被験物質投与

3

7

10

合計

3

17

20

各群の標本数が3で病理所見および尿検査値のスコアー値に使用するMann-WhitneyのU検定(表3)で計算する.この検定は,各群3匹で片側検定によって有意差が検出できる.平均値の差の検定ではない.

表3. 各群の標本数が3の場合

測定値または順位

U値

A

1 (3), 2 (3), 3 (3)

9

B

4 (0), 5 (0), 6 (0)

0

括弧内の数値は,括弧の左の数値に対して他群で大きい数値の個数を示す.B群は,全て小さい.したがって全て0となる.小さいU値 (0 (0+0+0))をMann-WhitneyのUの表のU値と比較する.U値0に該当する確率は,0.050 (p ≤ 0.05 by one-sided) となり有意差が認められる.

体重,血液・生化学的検査値および器官重量などの定量値に対する統計学的有意差検出に影響する要因は,1群内動物数,平均値および分散値によって変化する.この三者の中で有意差検出に最も影響を与える項目は,分散である.

時々文献に使用されている数字の桁数および単位が異なった項目が混在している場合の分布の比較には「変動係数 (%) 」が有用である.変動の少ない電解質と変動の大きい酵素系などの桁数の異なった計測値の分布の比較などに適している.毒性試験に使用された153試験(化審法の28日間反復投与毒性試験)の対照群から得られた59の定量値(体重,血液学,血液生化学的検査値および器官重量など)の変動係数の変化についてKobayashi et al. (2011) が発表している.各測定値の変動係数の違いを述べる.

全定量項目59の雄雌別変動係数を併合し,その平均値の小さい順を以下に述べる.最小の変動係数は,Naが0.74%,次いでCl, 尿比重およびMCHCの順でAlbまでが4%台であった.5–9%台にリンパ球数,K, TP, PT, Fib, ∙∙∙∙∙∙∙∙精巣上体重量,PLT, 肝重量が認められた.10%台にGlu, CRN, FC, ∙∙∙∙∙∙∙ Cho, 胸腺重量,前立腺重量が認められた.20%台にRET, ALP, 飲水量,∙∙∙∙∙∙∙ 尿浸透圧,子宮重量,LDHが認められた.変動係数30–40%台にメトヘモグロビン (metHb), TG, 尿量,好中球,CPKおよびγ-GTPが認められた.

体重の変動係数7.09%とほぼ同様な項目は,PT, Fib, 肺重量,精巣重量および顎下腺重量などであった.電解質および計算値などの変動係数は小さく,酵素系および測定法に加えてノウハウがある尿量,好中球およびmetHbなどの項目は,変動係数が大きかった.

多くの実験動物を用いた試験では,供試動物の体重の変動係数値を頭に入れて種々のデータを解析してほしい.この理由は,だいたいの目安として変動係数が約7%の場合,t検定で各群10匹の試験設定で対照群に比較して約7%の増減が認められればp < 0.05を示す傾向にある.つまり変動係数が40%と大きい場合は,対照群に対して40%以上の増減が認められれば 5%水準で有意差が検出できる.

7. まとめ

有意水準を 5% (p = 0.05) に設定してヒトを含めた生物・動物を用いた毒性および効果試験が実施されている.しかし,時折5%以外に有意水準を設定している試験がある.私は,生物を用いた各種試験結果に統計処理を実施する場合,5%水準を設定し生物学的有意差と合致する統計手法を使用したい.もし統計解析と生物効果が合致しない場合は,理由を述べて生物学的有意差を優先したい.

8. 【引用文献および資料】

吉村 功 (1987):毒性・薬効データの統計解析.サイエンティスト社,東京.

Ambali, S., Akanbi, D., Igbokwe, N., Shittu, M., Kawu, M. and Ayo, J. (2007): Evaluation of subchronic chlorpyrifos poisoning on hematological and serum biochemical changes in mice and protective effect of vitamin C. J. Toxicol. Sci., 32, 111–120.

Dunnett, C.W. (1955): A multiple comparison procedure for comparing several treatments with a control, Am. Stat. Assoc., 50, 1096–1211.

Dunnett, C.W. (1964): New tables for multiple comparison with a control. Biometrics, 20, 482–491.

Hashida, T., Kotake, Y. and Ohta, S. (2011): Protein disulfide isomerase knockdown-induced cell death is cell-line-dependent and involves apoptosis in MCF-7 cells. J. Toxicol. Sci., 36, 1–7.

Hayashi, T., Yada, H., Auletta, C.S., Daly, I.W., Knezevich, A.L. and Cockrell, B.Y. (1994): A six-month interperitoneal repeated dose toxicity study of tazobactam/piperacillin and tazobactam in rats. J. Toxicol. Sci., 19, Suppl. 2, 155–176.

Ishii, S., Ube, M., Okada, M., Adachi, T., Sugimoto, J., Inoue, Y., Uno, Y. and Mutai, M. (2009): Collaborative work on evaluation of ovarian toxicity (17). J. Toxicol. Sci., 34, SP175–SP188.

Jahnke,G. D., Price, C. J., Marr, M. C., Myers, C. B. and George, J. D. (2006): Developmental toxicity evaluation of Berberine in rats and mice. Birth Defects Research (Part B) 77, 95–206.

Katsutani, N., Sagami, F., Tirone, P., Morisetti, A., Bussi, S. and Mandella, R.C. (1999): General toxicity study of gadobenate dimeglumine formulation (E7155) (4). J. Toxicol. Sci., 24, Suppl. 1, 41–60.

Kim, D., Cha, S-H., Sato, E., Niwano, Y., Kohno, M., Jiang, Z., Yamasaki, Y., Natsuyama, Y., Yamaguchi, K. and Oda, T. (2010): Evaluation of the potential biological toxicities of aqueous extracts from red tide phytoplankton cultures in in vitro and in vivo systems. J. Toxicol. Sci., 35, 591–599.

Kimura, K., Tabo, M., Mizoguchi, K., Kato, A., Suzuki, M., Itoh, Z., Omura, A. and Takanashi, H. (2007): Hemodynamic and electrophysiological effects of mitemcinal (GM-611). A novel prokinetic agent derived from erythromycin in a halothane-anesthetized canine model. J. Toxicol. Sci., 32, 231–239.

Kobayashi, K. (2011): “Letter to the Editor”. J. Toxicol. Sci., 36, (3), 393–394.

Kobayashi, K., Sakuratani, Y., Abe, T., Yamazaki, K., Nishikawa, S., Yamada, J., Hirose, A., Kamata, E. and Hayashi, M. (2011): Influence of coefficient of variation in determining significant difference of quantitative values obtained from 28-day repeated-dose toxicity studies in rats. J. Toxicol. Sci., 36, (1), 63–71.

Kudo, S., Tanase, H., Yamasaki, M., Nakao, M., Miyata, Y., Tsuru, K. and Imai, S. (2000): Collaborative work to evaluate toxicity on male reproductive organs by repeated dose studies in rats (23). J. Toxicol. Sci., 25, SP223–SP232.

Matsumoto, K., Matsumoto, S., Yoshida, T. and Ooshima, Y. (1999): Sperm abnormalities and histopathological changes in the testes in Crj: CD (SD) IGS rats. J. Toxicol. Sci., 24, 63–68.

Miida, H., Arakawa, S., Shibata, Y., Honda, K., Kiyosawa, N., Watanabe, K., Manabe, S., Takasaki, W. and Ueno, K. (2008): Toxicokintic and toxicodynamic analysis of clofibrate based on free drug concentrations in nagase analbuminemia rats (NAR). J. Toxicol. Sci., 33, 349–361.

Mochizuki, M., Shimizu, S., Kitazawa, T., Umeshita, K., Goto, K., Kamata, T., Aoki, A. and Hatayama, K. (2008): Blood coagulation-related parameter changes in Sprague-Dawley (SD) rats treated with Phenobarbital (PB) and PB plus vitamin K. J. Toxicol. Sci., 33, 307–314

Mochizuki, M., Abe, H., Wakabayashi, K., Yoshinaga, H, Okazaki, E., Saito, T., Fujita, M., Edamoto, H. and Asano, Y. (2009a): Changes in blood coagulation-related parameters in Phenobarbital-treated rabbits. J. Toxicol. Sci., 34, 357–362.

Mochizuki, M., Shimizu, S., Urasoko, Y., Umeshita, K., Kamata, T., Kitazawa, T., Nakamura, D., Nishihata, Y., Ohishi, T. and Edamoto, H. (2009b): Carbon tetrachloride-induced hepatotoxicity in pregnant and lactating rats. J. Toxicol. Sci., 34, 175–181.

Obara,