적용 시나리오:
데이터베이스에 삽입된 레코드를 테스트해야 하는 경우가 있기 때문에 이러한 스크립트가 매우 필요합니다.
테이블 만들기:
CREATE TABLE `tables_a` ( `id` int(10) NOT NULL DEFAULT '0', `name` char(50) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
임의의 문자열을 생성하는 함수 만들기:
set global log_bin_trust_function_creators = 1; DROP FUNCTION IF EXISTS rand_string; DELIMITER // CREATE FUNCTION rand_string(n INT) RETURNS VARCHAR(255) BEGIN DECLARE chars_str varchar(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'; DECLARE return_str varchar(255) DEFAULT ''; DECLARE i INT DEFAULT 0; WHILE i < n DO SET return_str = concat(return_str,substring(chars_str , FLOOR(1 + RAND()*62 ),1)); SET i = i +1; END WHILE; RETURN return_str; END // delimiter ;
x가 시작되는 테이블을 삽입하는 프로시저를 만듭니다. y는 최종 값, z는 생성된 난수의 수
delimiter // create procedure test(x int(10),y int(10),z int(10)) begin DECLARE i INT DEFAULT x; while i<y do insert into tables_a values(i,rand_string(z)); set i=i+1; end whi
mysql 무작위 데이터 생성 및 삽입
dblp 데이터베이스에는 논문당 평균 인용 횟수가 0.2회로 매우 적은 인용 정보가 있습니다. dblp를 실험 데이터 세트로 사용한 논문에서는 인용 정보를 무작위로 추가할 수 있다고 언급했습니다. 이에 영감을 받아 각 논문에 무작위 인용 20개를 추가할 계획이어서 다음과 같은 SQL 문을 작성했습니다.
String sql = "인용(pId1,pId2) 값에 삽입( (논문 제한에서 pId 선택 ?,1),(논문 제한에서 pId 선택 ?,1))";
배치 모드로 데이터베이스를 제출하려면 preparestatement를 사용하세요.
첫 번째 매개변수는 논문의 rowid 정보로, 범위는 0부터 N(N은 논문의 전체 행)입니다. 두 번째 매개변수는 Java에서 생성된 0-N 범위의 반복되지 않는 난수 20개입니다. 그런 다음 for 루프에 중첩되어 10,000개의 데이터 조각마다 데이터베이스에 제출됩니다.
이 코드는 제한 기능을 교묘하게 사용하여 튜플을 무작위로 선택하는데, 이는 비밀리에 만족스럽습니다. 모든 선택은 데이터베이스에서 이루어지므로 jdbc를 통한 다중 연결이 필요 없고 빠르게 완료될 수 있어야 한다고 생각했습니다. 예상외로 100,000개의 데이터(10000*10)만 삽입하는데 무려 22분이 걸렸습니다. 최종 실험에는 400만 개의 데이터를 삽입해야 하는데, 이는 약 14시간이 소요된다는 뜻이다.
그래서 시간 병목 현상을 찾기 위해 유사한 프로그램을 계속해서 반영하고 작성했으며 마침내 선택 제한에 잠겼습니다. 이 작업은 매우 시간이 많이 걸립니다. 처음에 Limit을 선택하는 이유는 숫자가 무작위로 생성되고 그 숫자를 튜플, 즉 rowid에 매핑해야 하기 때문입니다. papers 테이블의 기본 키는 증가하는 int가 아니므로 기본 rowid가 존재하지 않습니다. . 나중에 논문 테이블에 auto_increment라는 임시 열을 추가하고 인용 삽입이 완료된 후 이를 삭제할 수 있겠다는 생각이 들었습니다. 이런 방식으로 SQL 문은 다음과 같이 변경됩니다.
String sql = "인용(pId1,pId2) 값에 삽입((temp=?인 논문에서 pId 선택), (temp=?인 논문에서 pId 선택)";
100,000개의 데이터를 다시 삽입하는데 38초가 걸립니다. 효율성이 크게 향상됐는데, 더 최적화할 수 있을지는 모르겠습니다.