SQLのWHERE句でレコードの存在チェックを行う時などの表現を、IN句でもEXISTS句でも行えるが、EXISTS句は条件に一致するレコードが1件でもあればそこで処理を終了するのに比べて、IN句は条件に当てはまるデータを全て抽出するため、EXISTS句を利用した方が処理が速くなることが多い。
今回は、WHERE句内でIN句を利用した場合とEXISTS句を利用した場合それぞれで、SQLの実行速度を測定するプログラムを作成してみたので、共有する。
なお、SQL文の性能改善を行う方法については、以下のサイトを参照のこと。
https://sites.google.com/site/orapeform/sql_minaoshi
前提条件
下記記事の実装が完了していること。
サンプルプログラムの作成
作成したサンプルプログラムの構成は、以下の通り。

なお、上記の赤枠は、前提条件のプログラムから変更したプログラムである。
Mapperインタフェース・Mapper XMLの内容は以下の通りで、IN句を利用した場合・EXISTS句を利用した場合それぞれで、生年月日が基準日と一致するデータを取得するSQLを用意している。
package com.example.demo;
import org.apache.ibatis.annotations.Mapper;
import java.util.Date;
import java.util.List;
@Mapper
public interface UserDataMapper {
/**
* 指定したIDをもつユーザーデータテーブル(user_data)のデータを取得する
* @param id ID
* @return ユーザーデータテーブル(user_data)の指定したIDのデータ
*/
UserData findById(Long id);
/**
* IN句を使って、ユーザーデータテーブル(user_data)の生年月日が基準日と
* 一致するデータを全件取得する
* @param basicDate 基準日
* @return ユーザーデータテーブル(user_data)のリスト
*/
List<UserData> findByBirthdayIn(Date basicDate);
/**
* EXISTS句を使って、ユーザーデータテーブル(user_data)の生年月日が基準日と
* 一致するデータを全件取得する
* @param basicDate 基準日
* @return ユーザーデータテーブル(user_data)のリスト
*/
List<UserData> findByBirthdayExists(Date basicDate);
}<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE mapper
PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN"
"http://mybatis.org/dtd/mybatis-3-mapper.dtd">
<mapper namespace="com.example.demo.UserDataMapper">
<resultMap id="userDataResultMap" type="com.example.demo.UserData" >
<id column="id" property="id" jdbcType="BIGINT" />
<result column="name" property="name" jdbcType="VARCHAR" />
<result column="birth_year" property="birthY" jdbcType="VARCHAR" />
<result column="birth_month" property="birthM" jdbcType="VARCHAR" />
<result column="birth_day" property="birthD" jdbcType="VARCHAR" />
<result column="sex" property="sex" jdbcType="VARCHAR" />
<result column="memo" property="memo" jdbcType="VARCHAR" />
</resultMap>
<select id="findById" parameterType="java.lang.Long" resultMap="userDataResultMap">
SELECT id, name, birth_year, birth_month, birth_day, sex, memo
FROM USER_DATA WHERE id = #{id}
</select>
<select id="findByBirthdayIn" parameterType="java.util.Date"
resultMap="userDataResultMap">
SELECT u1.id, u1.name, u1.birth_year, u1.birth_month, u1.birth_day
, u1.sex, u1.memo
FROM USER_DATA u1
WHERE u1.id IN (
SELECT u2.id FROM USER_DATA u2
WHERE TO_DATE(TO_CHAR(u2.birth_year)
|| LPAD(TO_CHAR(u2.birth_month), 2, '0')
|| LPAD(TO_CHAR(u2.birth_day), 2, '0'), 'yyyyMMdd') = #{date}
)
</select>
<select id="findByBirthdayExists" parameterType="java.util.Date"
resultMap="userDataResultMap">
SELECT u1.id, u1.name, u1.birth_year, u1.birth_month, u1.birth_day
, u1.sex, u1.memo
FROM USER_DATA u1
WHERE EXISTS (
SELECT u2.id FROM USER_DATA u2
WHERE u2.id = u1.id
AND TO_DATE(TO_CHAR(u2.birth_year)
|| LPAD(TO_CHAR(u2.birth_month), 2, '0')
|| LPAD(TO_CHAR(u2.birth_day), 2, '0'), 'yyyyMMdd') = #{date}
)
</select>
</mapper>また、サービスクラスのサブクラスの内容は以下の通りで、それぞれのSQLを呼び出し、それぞれの実行時間を表示するようにしている。
package com.example.demo;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;
import java.util.Calendar;
import java.util.List;
@Service
public class DemoServiceSub {
/**
* ユーザーデータテーブル(user_data)へアクセスするマッパー
*/
@Autowired
private UserDataMapper userDataMapper;
/**
* 性能検証を行うための個別サービス
*/
public void verifyPerformanceEach() {
// 初回DB接続時は時間がかかるため、あえて性能測定対象外のSQLを1度実行しておく
userDataMapper.findById(Long.valueOf(1));
// 検索時に利用する基準日(2012/1/20)を生成する
Calendar basicDate = Calendar.getInstance();
basicDate.set(2012, 0, 20, 0, 0, 0);
basicDate.set(Calendar.MILLISECOND, 0);
System.out.println("--- IN句を使って、ユーザーデータテーブル(user_data)の生年月日"
+ "が基準日と一致するデータを全件取得するSQLを実行します start. ---");
// 処理前の現在時刻を取得
long startTime = System.currentTimeMillis();
// IN句を使って、ユーザーデータテーブル(user_data)の生年月日が基準日と
// 一致するデータを全件取得する
List<UserData> userDataList
= userDataMapper.findByBirthdayIn(basicDate.getTime());
// 処理後の現在時刻を取得
long endTime = System.currentTimeMillis();
System.out.println("取得件数 : " + userDataList.size());
System.out.println("処理時間:" + (endTime - startTime) + " ms");
System.out.println("--- IN句を使って、ユーザーデータテーブル(user_data)の生年月日"
+ "が基準日と一致するデータを全件取得するSQLを実行します end. ---");
System.out.println();
System.out.println("--- EXISTS句を使って、ユーザーデータテーブル(user_data)の生年月日"
+ "が基準日と一致するデータを全件取得するSQLを実行します start. ---");
// 処理前の現在時刻を取得
startTime = System.currentTimeMillis();
// EXISTS句を使って、ユーザーデータテーブル(user_data)の生年月日が基準日と
// 一致するデータを全件取得する
userDataList = userDataMapper.findByBirthdayExists(basicDate.getTime());
// 処理後の現在時刻を取得
endTime = System.currentTimeMillis();
System.out.println("取得件数 : " + userDataList.size());
System.out.println("処理時間:" + (endTime - startTime) + " ms");
System.out.println("--- EXISTS句を使って、ユーザーデータテーブル(user_data)の生年月日"
+ "が基準日と一致するデータを全件取得するSQLを実行します end. ---");
System.out.println();
}
}その他のソースコード内容は、以下のサイトを参照のこと。
https://github.com/purin-it/java/tree/master/spring-boot-oracle-performance-in-exists/demo
サンプルプログラムの実行結果
サンプルプログラムの実行結果は以下の通りで、IN句よりEXISTS句を利用した方が、SQLが速くなることが確認できる。
1) 以下を実行し、USER_DATAテーブルに、生年月日が2012/1/20のデータ50,000件と、生年月日が2012/1/21のデータ50,000件のデータを、それぞれ追加する。
begin
execute immediate 'TRUNCATE TABLE user_data';
for i in 1..25000 loop
INSERT INTO user_data VALUES (i, 'テスト プリン' || TO_MULTI_BYTE(i)
, 2012, 1, 20, TO_CHAR(MOD(i, 2) + 1), 'テスト');
end loop;
for i in 25001..50000 loop
INSERT INTO user_data VALUES (i, 'テスト プリン' || TO_MULTI_BYTE(i)
, 2012, 1, 21, TO_CHAR(MOD(i, 2) + 1), 'テスト');
end loop;
for i in 50001..75000 loop
INSERT INTO user_data VALUES (i, 'テスト プリン' || TO_MULTI_BYTE(i)
, 2012, 1, 20, TO_CHAR(MOD(i, 2) + 1), 'テスト');
end loop;
for i in 75001..100000 loop
INSERT INTO user_data VALUES (i, 'テスト プリン' || TO_MULTI_BYTE(i)
, 2012, 1, 21, TO_CHAR(MOD(i, 2) + 1), 'テスト');
end loop;
COMMIT;
end;
/
実行後、以下のように、レコード数が100,000件で、そのうち、生年月日が2012/1/20であるデータが50,000件になっていることが確認できる。

select count(*) from user_data
where to_date(TO_CHAR(birth_year)
|| LPAD(TO_CHAR(birth_month), 2, '0')
|| LPAD(TO_CHAR(birth_day), 2, '0'), 'yyyyMMdd') = '2012/01/20'

2) 1)の状態でSpring Bootのメインクラス(DemoApplication.java)を実行した結果、コンソールログに出力される内容は以下の通り。
要点まとめ
- SQLのWHERE句でIN句でもEXISTS句の両方が利用できる場合、EXISTS句は条件に一致するレコードが1件でもあればそこで処理を終了するのに比べて、IN句は条件に当てはまるデータを全て抽出するため、EXISTS句を利用した方が処理が速くなることが多い。






