现在有两个表(mysql)
表1字段如下:省,市,手机号,姓名,其它字段
表2字段如下:省,市,手机号,其它字段
表1和表2的数据库都较大,日新增数据几百万行。
现在对表1和表2都进行了分表。
需求是:根据两表中的手机号匹配两表的数据。
问题是:
1、匹配的好的数据如何存储,是存储到第三个表,或者在表1加个字段,保持表2匹配的行的id。
2、如何查询未匹配的记录。
现在有两个表(mysql)
表1字段如下:省,市,手机号,姓名,其它字段
表2字段如下:省,市,手机号,其它字段
表1和表2的数据库都较大,日新增数据几百万行。
现在对表1和表2都进行了分表。
需求是:根据两表中的手机号匹配两表的数据。
问题是:
1、匹配的好的数据如何存储,是存储到第三个表,或者在表1加个字段,保持表2匹配的行的id。
2、如何查询未匹配的记录。
<code class="sql">create table zzz( id int not null, xx ..., primary key(id) ) as ( select id, xx from table where .. )</code>
http://dev.mysql.com/doc/refm...
未匹配的记录, 使用一张表作为左表关联另外一张表, 判断右表是否有 null 即可
例如
<code class="sql">select * from tb1 left join tb2 on tb1.mobi=tb2.mobi where tb2.mobi is null</code>
这样的结果就是 tb1 中的所有没出现在 tb2 的记录
但是这样有另外一种情况 tb2 中如果有某个记录 tb1 不存在的就无法查出 tb1 的未匹配记录.
其实要查看两表是否全部匹配可以使用 full join
来进行匹配, 但是从你的这个数据量来看, 建议不要使用 full join , 就算用也不要查全部的.
关于 join 用法看这张图
表的优化
1、手机号字段建索引
2、分表建议按手机号前几位来分表。
关于存储
建议表1表2分别加字段,存储另一表中的行。下次更新处理的时候可以跳过字段有值的部分处理。
未匹配的就是字段为空的。
另外
建议把更新直接放到记录的时候,往表1中加数据的时候查询是否在表2中存在。
查询的可以
select * from t1,t2 where t1.mobile = t2.mobile
查询出来了就可以创建新的了